ClustVis
קלאסטויס (באנגלית:ClustVis) הינה תוכנה לניתוח נתונים באמצעות למידת מכונה.
באמצעות התוכנה משתמשים יכולים להעלות נתונים משלהם, ליצור בקלות גרפים של ניתוח גורמים ראשיים (באנגלית: Principal Components Analysis, בראשי תיבות: PCA) וגם ליצור גרפים של מפת חום (באנגלית: Heat map).
לקלאסטויס קיים ממשק אינטרנטי חינמי הפתוח לקהל הרחב אשר מחולק לגרסה הרגילה וגרסה למידע בנפח גדול. בנוסף לממשק האינטרנטי ניתן להוריד ולהתקין את הממשק על המחשב המקומי.
היסטוריה
[עריכה]מתחילת המילניום במקביל להתפתחות המדע, הטכנולוגיה ופרויקט גנום האדם כמויות המידע הביולוגי הלכו והתעצמו. בכדי להשתמש בנתוני העתק שהצטברו, היה צורך להמציא אלגוריתמים חדשים למניפולציות וניתוח המידע. מיזמים רבים כדוגמת ביופייתון (באנגלית: Biopython) וביופרל (באנגלית: BioPerl) עודדו שיתוף אלגורתמים ועזרו בתחום החקר הביואינפורמטי. מיזמים כדוגמת R עזרו בתחום האינפוגרפיקה להסברת המידע על ידי גרפים. למרות השימוש הרב בקוד פתוח (באנגלית: Open source) עדיין קיים קושי בהשתלבות בתחום המחקר הביואינפורמטי בשל הדרישה לידע רב בתכנות והצורך ברכישת תוכנות או מחשוב עוצמתי בכסף רב. בהשפעת BoxPlotR [1], שהוא ממשק אינטרנטי להצגת תרשים קופסאות שפורסם בשנת 2014, זוג חוקרים מהפקולטה למדעי המחשב שבאוניברסיטת טרטו יצרו את קלאסטוויס (באנגלית:ClustVis), כלי אינטרנט שמטרתו להקל על ניתוח נתונים רבי ממדים. קלאסטוויס הושק באוקטובר 2014 ופורסם במאמר [2] ב Nucleic Acids Research של הוצאת אוניברסיטת אוקספורד במאי 2015.
דוגמאות עכשווית לשימוש ב ClustVis
[עריכה]
מאמר[3] שפורסם ב Frontiers in oncology ב-17 ביוני 2021, המאמר מטיל ספק ביעילות הסמנים ביולוגים בסביבת הגידול הסרטני כאינדיקטור לסוג הטיפול המיטבי בקרצינומה של תאי קשקש עם ראש וצוואר (HNSCC) מכיוון שלשיטתם התגובה לטיפול ע"פ אותם סמנים ביולוגים אינה וודאית. במחקר נצפו תגובות שונות לטיפול זהה בין חיות זהות גנטית בעלות גידול סרטני זהה, אף על פי שלא היה כל שוני בסמנים הביולוגים שנבדקו. החוקרים דגמו גידולים שונים ובחנו את החומרים שהם הפרישו (ציטוקינים), את כלל המידע שאספו הם העלו לקלאסטוויס (באנגלית:ClustVis) וראו כי האלגוריתם של ניתוח גורמים ראשיים מצליח להפריד בקלילות בין הגידולים השונים (צבע הצורות:אדום, כחול, ירוק, סגול) ע"פ החומרים שהופרשו. אך לא נמצאה שונות לפי הטיפול (סוג הצורה:עיגול, ריבוע, משולש, מעוין).
[4]The Placental Response to Guinea Pig Cytomegalovirus Depends Upon the Timing of Maternal Infection
[עריכה]מאמר[4] שפורסם ב Front Immunol ב-12 ביוני 2021, במאמר החוקרים מנסים לבדוק האם זמן ההדבקה בציטומגלווירוס (באנגלית:CMV - Cytomegalovirus) במהלך ההריון משפיע על חומרת הפגיעה בעובר. החוקרים הדביקו בווירוס שיליות של שרקנים לאחר 21 או 35 ימים מהכניסה להריון. את קבוצת המחקר הדביקו עם GPCMV, שהוא ווירוס ציטומגלווירוס של שרקנים (Guinea Pig CMV) והשוו אל קבוצת הביקורת (mock-infected dams). החוקרים בודדו את הרנ"א מהתאים 21 יום לאחר ההדבקה ריצפו וכימתו אותו על ידי אילומינה (באנגלית:Illumina) או על ידי RT-PCR (הערכים המודגשים במפת החום). את המידע שאספו העלו לקלאסטוויס, ראשית הם ראו כי על ידי ניתוח גורמים ראשיים האלגוריתם מצליח להפריד בין הקבוצות השונות של המחקר ע"פ הרנ"א. לאחר מכן השוו את כמות הרנ"א במפת חום. מהגרף ניתן לראות כי בהדבקה 21 ימים לאחר הכניסה להריון אין שוני משמעותי בין קבוצת המחקר לביקורת (8 ערכים היו שונים), בעוד בקבוצה שהודבקה 35 ימים לאחר הכניסה להריון היה הבדל משמעותי (126 ערכים היו שונים). לפיכך הסיקו החוקרים כי השליה פחות עמידה בפני הדבקה בשלב מאוחר יותר של ההריון בציטומגלווירוס ולכן מעלה את הסיכון להשפעות שליליות על ההריון. במקרא מפת החום למטה: שחור - הודבקו לאחר 21 יום להריון, לבן - הודבקו לאחר 35 יום להריון, אדום - קבוצת מחקר, כחול - קבוצת ביקורת.
-
שימוש בקלאסטוויס (ClustVis) לניתוח גורמים ראשיים[4]
[5]Asymptomatic COVID‐19: disease tolerance with efficient anti‐viral immunity against SARS‐CoV‐2
[עריכה]מאמר[5] שפורסם ב EMBO Molecular Medicine ב-7 ביוני 2021, במאמר זה החוקרים ניסו לבדוק מה הסיבה לכך שחלק מהאנשים שנדבקו בוירוס קורונה (SARS‐CoV‐2) לא הראו סימפטומים (אסימפטומטים) למחלה. ההחוקרים קיוו שהבנת המנגנון המגן אצל אותם אנשים, אולי תאפשר לפתח דרך טיפול מפני התפתחות מחלה לאחר הדבקה על ידי וירוס הקורונה (SARS‐CoV‐2). החוקרים השוו מגוון מולקולות, תאים וחומרים (ציטוקינים, רנ"א, נוגדנים ותאי מערכת החיסון) בין החולים האסימפטומטים לבין סימפטומים וניסו למצוא הסיבה להבדל בתגובה. החוקרים כימתו את ביטוי הגנים השונים הקשורים לתאי T ויצרו מהמידע מפת חום בקלאסטוויס. מהגרף ניתן לראות הבדל די ברור בין החולים האסימפטומטים (תחת הקו הכחול למעלה) לבין הסימפטומים (תחת הקווים אדום, צהוב וירוק). מכך הסיקו החוקרים שההבדל בין החולים יכול חוסר איזון ביחס בין תאי T השונים (Th1/Th2).
מאמר[6] שפורסם ב MED מבית עיתונות Cell ב-31 במרץ 2021, במאמר זה החוקרים ניסו לבדוק מה הן ההשפעות הארוכות טווח של המחלימים ממחלת COVID-19 לאחר שנדבקו בוירוס קורונה (SARS‐CoV‐2) והאם ניתן לאבחן שונות בין ההשפעות העתידיות על ידי מאפיני הלימפוציטים השונים בדם. החוקרים דגמו חולים בCOVID-19 שאושפזו בבית החולים המשיכו במעקב אחריהם עד 6 חודשים משחרורם, במהלכם החוקרים אספו מידע על התאים של מערכת החיסון (לימפוציטים), על הציטוקינים ובנוסף הם עשו צילומי X-Ray של החולים. החוקרים יצרו מהמידע מפת חום בקלאסטוויס. בעזרת המידע שהוצג בגרף הם הבחינו ב- 3 קבוצות הנבדלות ע"פ המאפיינים שלהן ומתוארות למטה ע"י המאפיינים של התאים הלימפוציטים המובהקים. ע"פ ממצאי המחקר ניתן לחזות את התגובה העתידית של החולים (חיזוי של עד 6 חודשים אחרי) בעזרת המאפיינים הלימפוציטים בזמן המחלה האקוטית ב COVID-19.
כללי
[עריכה]השימוש וניתוח הנתונים באמצעות האתר עובד בשלבים על ידי מעבר לכל אחת מהכרטיסיות משמאל לימין. כל הכרטיסיות פועלות באופן דומה: ניתן לבחור הגדרות מהחלונית השמאלית, התמונה או הטבלה בצד ימין יעברו רענון אוטומטית לאחר מכן. במעבר ביו הכרטיסיות ולאחר ביצוע פעולות זה יכול לקחת מספר שניות לטעון. במעבר מכרטיסייה אחת לאחרת, ההגדרות נשמרות אוטומטית.
הסבר כללי על הכרטיסיות:
- ייבוא נתונים - בחר מקור נתונים, אפשרות לסינון שורות / עמודים על סמך הערות והיפוך המטריצה.
- עיבוד מקדים של נתונים - אפשרות לצבירת / כימות עמודות עם ערכים דומים, הסרת שורות / עמודות עם ערכים חסרים, ביצוע תקנונים ועוד.
- PCA - הצגת גרף PCA ואפשרויות לשינוי הגרף.
- מפת חום - הצגת גרף מפת חום ואפשרויות לשינוי מפת חום.
- ייצוא - שמירה ויצירת קישור עם ההגדרות הנוכחיות והנתונים לעריכה עתידית, הורד תוצאות ביניים.
- עזרה - מדריך למשתמש והסברים כלליים.
- חדשות - סקירת גרסאות העבר והשינויים.
הזמן הקצוב לשמירת סשן (הזמן בו החיבור לשרת מתנתק אם המשתמש אינו פעיל) מוגדר כ־30 דקות מצד השרת. כדי לשמור נתונים שהועלו והגדרות נבחרות, יש לשמור את ההגדרות ואת הקישור תחת כרטיסייה 'ייצוא'. ניתן לשלוח קישור זה לאנשים נוספים כדי להציג את אותה תצוגה. אין זמן תפוגה מתוכנן לקישורים, בכניסה לקישור תחת כרטיסיית 'יצוא' משתמשים יכולים למחוק את ההגדרות והנתונים אם הם מודאגים מהפרטיות. ייתכן שבעדכון גרסה עתידי של ClustVis הגדרות שמורות לא יתאמו לחלוטין את הגרסה החדשה ולכן לא יעבדו.
ייבוא נתונים
[עריכה]תחת כרטיסייה 'יבוא נתונים' ניתן לבחור במספר אפשרויות ליבוא (מידע לדוגמה, העלאת קובץ, הדבקת מידע, מאגרי מידע מקוונים ואחזור מידע שמור). ניתן לעשות מגוון מניפולציות על המידע, לסנן עמודות / שורות ולעשות היפוך למטריצה. הממדים מוצגים בשורות והדגימות השונות בעמודות. תוויות שורה (המימד) והערות נותרות בטבלה התחתונה, תוויות הדגימה נמצאות מעל הטבלה. תוויות ההערות הן בשורה ובעמודה הראשונה, בהתאמה. הפורמט של קובץ הקלט מוצג בתמונה למטה. ביאורים (באנגלית:Annotation) הם אופציונליים, ניתן להעלות גם ערכות נתונים ללא ביאורים (אם בתמונה לדוגמה, נשמיט את שורות 2–4 ו / או עמודות B ו- C) כלומר ללא הסבר לדגימות השונות (NKI בתמונה).
ניתן להשתמש בנתונים מתוכנית גיליון אלקטרוני (למשל MS Excel), על ידי העתקת הידע והדבקתו בתיבת 'הדבק נתונים' או על ידי שמירת הנתונים כקובץ טקסט מופרד (מסתיים ב- .csv או .tab) ואז להעלות את הקובץ הזה ל- ClustVis דרך אפשרות העלאת קבצים. העלאת קובצי Excel מקוריים ישירות (המסתיימים ב- .xls או .xlsx) אינה עובדת.
בנוסף, ניתן לטעון הגדרות ששמרתם קודם לכן (כולל נתונים, הגדרות נפתחות וכו ') או לייבא נתונים ממאגר הנתונים הביואינפורמטי של הפקולטה למדעי המחשב שבאוניברסיטת טרטו - Multi Experiment Matrix (בקיצור:MEM) הכוללים אוסף של מערכי נתונים ציבוריים מ- ArrayExpress.
אם מערך הנתונים שלך לא הועלה כראוי (לא מוצגות שורות), אנא בדוק את הדברים הבאים:
- וודא שהקובץ נבחר להעלאה או כי הדבקת את התוכן בתיבת הטקסט.
- ודא שלכל השורות יש מספר עמודות שווה. במקרה של ספק, בטוח יותר לפתוח את הנתונים בתוכנית גיליון אלקטרוני ולהעתיק ולהדביק משם במקום לבחור קובץ להעלאה.
- ודא שאין שמות משוכפלים של שורות או עמודות.
- ודא שכל הערכים החסרים מסומנים ב- NA או בתא ריק.
- אם זיהוי אוטומטי של המפריד בין הערכים אינו פועל כראוי, נסה להגדיר אותו באופן ידני (בטל את הסימון של תיבת הסימון 'זיהוי מפריד').
- אם זיהוי אוטומטי של הערות העמודות והשורות אינו פועל כהלכה, נסה להגדיר אותן באופן ידני (בטל את הסימון של תיבת הסימון 'זיהוי העמודות והשורות').
עבור טבלת נתונים שהועלתה על ידי המשתמש, ClustVis מזהה באופן אוטומטי הן את המפריד והן את מספר שורות ההערות מהנתונים כברירת מחדל. כדי למצוא מפריד בין הערכים, הכוונה לכל מפריד אפשרי (פסיק, טבלר, נקודה-פסיק) האלגוריתם מחשב כמה פעמים הוא מופיע בכל שורה. ואז משתמש בהיוריסטיקה שבה המינימום נלקח מכל השורות ומפריד עם הציון הגדול ביותר נבחר בתור הנכון.
לאחר שנמצא מספר השורות ועמודות הביאור, נמצאת המטריצה המספרית הגדולה ביותר האפשרית מהפינה הימנית התחתונה. אם המטריצה מכילה מספרים לא שלמים (כלומר מספרים חלקים) ויש כמה עמודות שמאליות או שורות עליונות שמכילות מספרים שלמים בלבד, השורות הראשונות ו / או העמודות הראשונות נחשבות להערות ביאור בעלות ערך של מספר שלם (לדוגמה הערכים בשורה anno3 במספרים שלמים: 2,4,5).
הסבר לכך מתואר בתמונות הבאות בהן ישנן שלוש שורות ביאור (הערות לדגימות השונות, באנגלית:Annotation) והקווים הירוק והאדום מציג זיהוי אוטומטי. בצד שמאל, המטריצה המספרית מכילה ערכים שאינם שלמים ושורת ההערות האחרונה (בתמונה anno3) מזוהה כהלכה. בצד ימין, המטריצה המספרית מכילה רק מספרים שלמים ולא ניתן לזהות את שורת ההערות האחרונה (בתמונה anno3) באופן אוטומטי.
מערך נתונים ציבורי מ- Multi Experiment Matrix (בקיצור:MEM)
[עריכה]בחירה באפשרות זו מאפשרת גישה לאוסף של מאגרי נתונים גנטיים ציבורי מ- ArrayExpress ניתן לבחור מערך נתונים אחד בכל פעם.
כדי לאחד את מזהי הגנים השונים ישנן ארבע אפשרויות לאחד את מספר השורות המוצגות:
- ניתן לאחד את מזהי הגנים ע"פ שיוכם במאגרי מידע שונים KEGG או Reactome או (Gene ontology) GO. ייתכן שמזהי גנים אינם ממירים כהלכה ולכן לא מוצגים נתונים.
- ניתן לבחור רשימת גנים מותאמת אישית. מזהים מומרים אוטומטית באמצעות הכלי g: Convert.
- ניתן לקבץ את הגנים על ידי ניתוח אשכולות k-means. מספר מרכזי האשכולות מסופק על ידי המשתמש. מזהה אשכול ומספר הגנים בכל אשכול יוצג בתוויות מפת החום.
- לאחר קיבוץ על ידי ניתוח אשכולות k-means ניתן לבחור לנתח רק אחד מאשכולות ה-k-means. בכדי לבחור את האשכול הרצוי יש לבצע קיבוץ ואז לבחור מתוך מפת החום.
לעיתים קורה שחלק מהשמות של הערכים ארוכים מאוד והופכים את התצוגה לקטנה, ניתן להגדיל את רוחב התצוגה באופן ידני. האלגוריתם לא קטוע את השמות באופן אוטומטי מכיוון שלפעמים התחלת השם חשובה, לפעמים הסוף וקשה להחליט על כך באופן אוטומטי.
באפשרותך לחפש מערך נתונים ונתיב על ידי הקלדת מילת מפתח אחת או יותר בתיבת החיפוש ואז לבחור מתוך הרשימה הנפתחת שתופיע. מילות המפתח יכולות להיות על חלק גוף, מזהה מערך נתונים או כל מילה אחרת המופיעה בכותרת הניסוי. כל מערכי הנתונים (8,021 טבלאות נתונים) והמסלולים (145,472 מסלולים ביולוגים שונים) הזמינים מסוכמים בטבלאות המופיעות באתר תחת הכרטיסיה 'Help'.
סינון מבוסס הערות
[עריכה]לאחר בחירת מערך נתונים, ניתן לסנן שורות או עמודות על סמך רמות ההערה. כברירת מחדל, כל הרמות כלולות, ניתן לבטל את הסימון שלהן אחת אחת או ללחוץ על 'שנה את כל הרמות' ואז לבדוק כמה מהרמות שייכללו. לכל רמה יש מספר בסוגריים המציג את מספר השורות או העמודות במערך הנתונים המלא שיש תחת רמה זו. אם משתמשים בהערות מרובות לסינון, נשמרת קבוצת משנה שעומדת בכל קריטריוני הסינון.
היפוך מטריצה
[עריכה]האפשרות האחרונה ביבוא נתונים היא היפוך המטריצה אם הממדים (gene - בתמונה למעלה) רשומים בעמודות במקום בשורות.
עיבוד מקדים של נתונים
[עריכה]בכרטיסיה 'עיבוד מקדים של נתונים' ניתן לבחור את השיטה בה משתמשים ל- PCA. שיטה זו משמשת גם להטמעת ערכי חסר למפת החום והיא גם קובעת האם הערכים במפת החום ממורכזים או לא. מספר הרכיבים שהוחזרו תלוי במידות מטריצת נתוני הקלט כפי שהופיעו בכרטיסיה הקודמת. אם יש יותר דגימות (n) מאשר ממדים (d) אז מחושבים הגורמים הראשיים (PC). אחרת, מספר הגורמים הראשיים הוא n.
לאחר בחירת הערכים הרצויים, המרכוז והתעלמות מערכים קבועים יש לבחור את התקנון לקנה המידה הרצוי. השונות היחידות (באנגלית:Unit variance) היא שיטת קנה המידה הנפוצה ביותר. המשמעות היא שכל המשתנים מוקטנים כך שיהיו חשובים באותה מידה (שונות = 1) בעת מציאת הרכיבים. כתוצאה מכך, הפרש של 1 פירושו שהערכים הם סטיית תקן אחת אחד מהשני, או מהממוצע של השורה אם השורות ממורכזות.
אם למשתנים כבר קנה מידה משותף ניתן ורצוי לשמור על השונות המקורית שלהם (אופציה זו עדיפה מכיוון שמשתנים שבהם השונות גדולה יותר אמורים לתרום יותר לרכיבים), בכדי לעשות זאת ניתן לבחור באפשרות להחיל 'ללא קנה מידה'.
לסיום יש לבחור את שיטת ה- PCA, באופן כללי, פירוק לערכים סינגולריים (באנגלית:SVD) הוא שיטת ה- PCA הרגילה בה משתמשים לרוב. בחירה באופציה זו כוללת גם השלמת פערים חסרים - Imputation. אם ישנם ערכים חסרים במערך הנתונים, הם מנובאים וממולאים איטרטיבית באמצעות ערכים אחרים במערך במהלך חישוב SVD. שיטות אחרות של PCA הן אסטרטגיות נוספות להתמודדות עם בעיית הערך החסר.
קימות אפשריות נוספות לבחירת שיטת ה- PCA (כמו - Nipals PCA, Probabilistic PCA) או קנה המידה (Pareto scaling, Vector scaling), בחירה באפשרויות אלו הן עניין של בדיקה עם כל מערך נתונים ספציפי. פרשנות התוצאות של עלילות PCA ומפת חום היא סובייקטיבית למדי וזקוקה לאימות נוסף בשיטות אחרות.
PCA ומפת חום
[עריכה]אלה הכרטיסיות העיקריות, באמצעותן ניתן ליצור ולהתאים אישית את הגרפים של מפת החום ושל ה- PCA. כל הגדרה נפרדת מתוארת באופן מדויק יותר בעזרת תיאור כלים שמופיע בעת ריחוף עם העכבר מעל האופציה. להורדת תמונה ניתן להשתמש באחד מהכפתורים שמעל הגרפים. ניתן לבחור את גוני הצבעים מתוך לוחות הצבעים הבאים של ColorBrewer:
בגרסה האחרונה ניתן להשתמש עד שמונה קבוצות צבע לגרף ה- PCA מכיוון שעין אנושית מתקשה להפריד בצבעים רבים יותר בקלות. במקרה זה, צורות צריכות להספיק להפרדת הקבוצות. נעשה שימוש בצורות הבאות:
אם יש יותר קבוצות מצורות זמינות, חלק מהקבוצות לא מוצגות בגרף.
אינטראקטיביות של הגרפים
[עריכה]עם העדכונים האחרונים של ClustVis, נוספו רכיבים אינטראקטיבים הן לגרף ה- PCA והן למפת חום באמצעותם ניתן ללחוץ ולרחף מעל אזורים ספציפיים בגרף. מצב זה זמין כאשר עוברים לכרטיסיית ה- PCA או למפת חום ובוחרים 'שנה תוויות גרף' ואז יש לבחור ב- 'הוסף אינטראקטיביות'. אינטראקטיביות עדיין בגרסה ניסיונית. אפשרות זו לא הוגדרה כאופציית ברירת המחדל מכיוון שתצוגת הגרפים איטיות יותר לעיבוד. מומלץ להגדיר תחילה אפשרויות אחרות במצב שאינו אינטראקטיבי ואז לעבור למצב אינטראקטיבי כשלב האחרון. עבור מערכי נתונים גדולים יותר שבהם עלילה אינטראקטיבית ייקח זמן רב מדי לעיבוד, היא עוברת באופן אוטומטי למצב שאינו אינטראקטיבי ומוצגת הודעת אזהרה.
מצב אינטראקטיבי כולל את האפשרויות הנוספות הבאות:
- העבר את העכבר מעל נקודה על גרף ה- PCA כדי לראות מידע נוסף.
- לחץ על נקודה בגרף ה- PCA כדי לראות ערכים מעמודה אחת בגרף ריצוד נפרד. אם 'plot_link' מופיע בין הערות העמודות, הנקודות מקושרות לגרף חיצוני במקום זאת.
- העבר את העכבר מעל שם שורה, שם עמודה או תא במפת החום כדי לראות מידע נוסף.
- לחץ על שם שורה, שם עמודה או תא במפת החום כדי לראות ערכים משורה, עמודה או תא אחד בגרף ריצוד נפרד.
- העבר את העכבר מעל נקודה בגרף הריצוד כדי לראות מידע נוסף.
- לחץ על נקודה בגרף הריצוד כדי לעבור לגרף חיצוני. זה זמין רק אם קיימת הערה בשורה או בעמודה בשם 'plot_link'.
- לחץ על שם עמודה בגרף הריצוד כדי לראות גרף ריצוד מופחתת עם ערכים מעמודה זו בלבד.
ניתן לעקוף את טיפי הכלים המוגדרים כברירת מחדל על ידי יצירת שורה או עמודה עם הערך 'plot_tooltip'. מתחת לגרף הריצוד מוצגת טבלה הכוללת את כל נתוני הגרף ובנוסף מידע על ערכים חסרים. מזהי שורה ועמודה בטבלה משתנים לקישורים אם 'plot_link' מופיע בין ההערות.
פירוש תוצר הגרפים
[עריכה]ניתוח רכיבים עיקריים מבצע טרנספורמציה ליניארית כדי להפוך נתונים רב-משתנים לצורה שבה משתנים אינם מתואמים (ראו: Jolliffe, Ian. Principal component analysis. John Wiley & Sons, Ltd, 2002). המשתנים החדשים הלא מתואמים האלה נקראים הגורמים הראשיים (PC) והם מסודרים בירידה על סמך גודל השונות שהוסברה על ידם. לפיכך, שני הגורמים הראשיים (PC1, PC2) הראשונים מציגים את הנתונים מזווית השונות הגדולה ביותר, כלומר הם יוצרים את הקרנת הדו-ממד ה"נפוצה ביותר". הם גם מעריכים את המרחקים בין הנקודות. לפיכך, אם אליפסות בגרף ה- PCA אינן חופפות, קבוצות אלה יוצרות אשכולות נפרדים.
עם זאת, יש להיזהר כאשר הגורמים הראשיים מתארים רק חלק קטן מהשונות הכוללת. במקרה זה, קירוב נתונים מקוריים עם הקרנה דו-ממדית עלול להטעות.
ההפך קורה כאשר יש רק שני ממדים בנתונים המקוריים, וכתוצאה מכך 100% מהווריאציה מוסברת על ידי שני המרכיבים. במקרה זה, PCA אינו הגיוני במיוחד וביצוע של פיזור פשוט עדיף בכדי לפרש את הנתונים ברוב המקרים.
לפעמים, הגורמים הראשיים קשורים עם וריאציה טכנית כמו אפקט אצווה, במקרה זה, זה הגיוני לבחון רכיבים נוספים שניתן לייחס למקורות שונות אינפורמטיביים יותר.
Heatmap - מפת חום היא דרך פופולרית נוספת לדמיין מטריצת נתונים. הערכים במטריצה מקודדים בצבע עם אפשרות לקבץ שורות ו / או עמודות. כאשר מסתכלים על ההערות על גבי מפת החום, ניתן לקבל סקירה אילו קבוצות מופרדת טוב יותר על ידי הערה מאחרות.
כשקוראים את האשכולות במפת חום, יש לשים לב אילו אובייקטים מקובצים לעץ אשכולות תחילה זה לאו דווקא בסדר המדויק של שורות ו / או עמודות. ניתן להחליף שני ענפים כלשהם מבלי לשנות את משמעות העץ.
דוגמה לפלט ופרשנותו מוצגת להלן:
בסיס מתמטי
[עריכה]חישוב המרכיבים העיקריים מוסבר היטב בספרו של איאן ג'וליף (Jolliffe, Ian. Principal component analysis. John Wiley & Sons, Ltd, 2002).
אשכול היררכי של מפת החום מתחיל בחישוב כל המרחקים הזוגיים. אובייקטים עם המרחק הקטן ביותר מקובצים בכל שלב. שיטת אשכולות מגדירה כיצד לעבור מרמת אובייקט לרמת אשכול בעת חישוב מרחק בין שני אשכולות.
מרחקי אשכול זמינים:
- מתאם - מתאם פירסון מופחת מ -1
- אוקלידי - שורש ריבועי של סכום המרחקים המרובעים
- ההפרש המקסימלי הגדול ביותר בין הקואורדינטות
- מנהטן - סכום ההבדלים המוחלטים
- קנברה - מרחק מנהטן משוקלל
- בינארי - המטריצה בינארית (לא אפס ל -1, אפס ל 0), מספר הביטים שהם 1/0 או 0/1 חלקי מספר הביטים שהם 0/1, 1/0 או 1/1
שיטות הצמדה זמינות:
- קישור יחיד - באמצעות שני אובייקטים קרובים ביותר משני אשכולות שיקובצו
- הצמדה מלאה - באמצעות שני עצמים רחוקים ביותר
- ממוצע - מרחק ממוצע של כל הזוגות האפשריים
- McQuitty - מרחק ממוצע של שני האשכולות (שיקובץ) לאשכול העניין
- חציון - מרחק חציוני של כל הזוגות האפשריים
- centroid - מרחק בין אמצעי אשכול
- הצמדת מחלקה - שימוש בסכום ההבדלים בריבוע מנקודות למרכזיות כמרחק
מהדורות נפרדות
[עריכה]- קיימת מהדורת ClustVis נפרדת הזמינה עם מגבלות גבוהות יותר לגודל הנתונים שהועלו.
- כמו כן, תמונה של Docker זמינה ב- Docker Hub, מה שמקל על הפעלת ClustVis באופן מקומי. ראה עמוד GitHub למידע נוסף על ההתקנה המקומית.
- אם אתה רוצה להפוך את יצירת העלילה של ClustVis, הדרך הטובה ביותר היא להשתמש בחבילת ClustVis R. ראה עמוד GitHub למידע נוסף.
ממשקים דומים
[עריכה]- MORPHEUS - כלי להדמיה המייצר מפות חום עבור מערכי נתונים גדולים. מורפוס הוא תוצר של מכון ברוד המאפשר לחוקרים לייצר במהירות ובקלות מטריצות נתונים גדולות כמפת חום. בנוסף ניתן באמצעותו לבצע אשכולות היררכיים, למיין ולסנן את הנתונים, ולחקור עוד יותר את מערך הנתונים. המשתמשים יכולים להעלות נתונים ל- MORPHEUS במגוון דרכים, כולל כקובץ Excel מהמחשב, כתובת URL, קובץ טקסט או קובץ המיובא מ- Google Drive או Dropbox. ב- MORPHEUS קיימים ממערכי נתונים גנומיים רבים הנטענים מראש ובאמצעותם אפשר ללמוד יותר על השימוש בכלי. עבור מערך נתונים נתון, משתמשים יכולים לבחור לנתח ביטוי גנים, מתילציה פרוטאומיקה או היבטים ספציפיים אחרים של הנתונים. כל עיבוד הנתונים מתרחש באופן מקומי במחשב של אחד בניגוד לשרת.
- PCAGO - כלי קל לשימוש אינטראקטיבי לניתוח נתוני כימות גנים הנגזרים מריצוף - RNA על ידי ניתוח גורמים ראשיים (PCA). הכלי כולל תכונות כגון נורמליזציה, סינון לפי הערת גנים ואפשרויות הדמיה שונות. PCAGO מסייע בבחירת פרמטרים מתאימים כגון מספר הגנים והרכיבים העיקריים ליצירת ויזואליזציות משמעותיות.
ראו גם
[עריכה]לקריאה נוספת
[עריכה]- The big challenges of big data | Nature
- Jolliffe, Ian. Principal component analysis. John Wiley & Sons, Ltd, 2002
קישורים חיצוניים
[עריכה]- האתר הרשמי, ClustVis
- גירסא לקבצים גדולים, ClustVis
- האתר הרשמי, ClustVis GitHub page
הערות שוליים
[עריכה]- ^ Michaela Spitzer, Jan Wildenhain, Juri Rappsilber, Mike Tyers, BoxPlotR: a web tool for generation of box plots, Nature Methods 11, 2014-02, עמ' 121–122 doi: 10.1038/nmeth.2811
- ^ Tauno Metsalu, Jaak Vilo, ClustVis: a web tool for visualizing clustering of multivariate data using Principal Component Analysis and heatmap, Nucleic Acids Research 43, 2015-07-01, עמ' W566–W570 doi: 10.1093/nar/gkv468
- ^ 3.0 3.1 3.2 Shay Sharon, Thomas Duhen, Shelly Bambina, Jason Baird, Explant Modeling of the Immune Environment of Head and Neck Cancer, Frontiers in Oncology 11, 2021-06-17, עמ' 611365 doi: 10.3389/fonc.2021.611365
- ^ 4.0 4.1 4.2 4.3 Zachary W. Berkebile, Dira S. Putri, Juan E. Abrahante, Davis M. Seelig, The Placental Response to Guinea Pig Cytomegalovirus Depends Upon the Timing of Maternal Infection, Frontiers in Immunology 12, 2021-06-15, עמ' 686415 doi: 10.3389/fimmu.2021.686415
- ^ 5.0 5.1 5.2 Yi‐Hao Chan, Siew‐Wai Fong, Chek‐Meng Poh, Guillaume Carissimo, Asymptomatic COVID‐19: disease tolerance with efficient anti‐viral immunity against SARS‐CoV‐2, EMBO Molecular Medicine 13, 2021-06-07 doi: 10.15252/emmm.202114045
- ^ 6.0 6.1 6.2 Halima A. Shuwa, Tovah N. Shaw, Sean B. Knight, Kelly Wemyss, Alterations in T and B cell function persist in convalescent COVID-19 patients, Med 2, 2021-06, עמ' 720–735.e4 doi: 10.1016/j.medj.2021.03.013
- ^ 7.0 7.1 7.2 7.3 7.4 7.5 ClustVis: a web tool for visualizing clustering of multivariate data (BETA), biit.cs.ut.ee
קטגוריה:ביואינפורמטיקה קטגוריה:למידה חישובית קטגוריה:כריית מידע קטגוריה:אינפוגרפיקה קטגוריה:סטטיסטיקה קטגוריה:למידה חישובית