ארכיטקטורת מידע/תזאורוסים ושפה מבוקרת/שפות מבוקרות

מתוך ויקיספר, אוסף הספרים והמדריכים החופשי

שפות מבוקרות מגיעות בתצורות ובדרגות קושי שונות: טבעת מילים נרדפות, קובץ סמכות, סכמות סיווג ותזאורוסים. גם היחסים בין הצורות השונות של השפות המבוקרות הינם שונים:

  • בטבעת המילים הנרדפות, היחסים בין המונחים הינם יחסים שקולים/שוויוניים.
  • בסכמות הסיווג, מדובר ביחסי היררכיה בין המונחים (רמות המיקרו והמקרו).
  • בתזאורוסים, היחסים בין המונחים הינם יחסים אסוציאטיביים.


סוגי שפות[עריכה]

טבעת המילים הנרדפות (Synonym Rings)[עריכה]

המילים "מיקסר", "בלנדר" ו"מעבד מזון" הוגדרו כמילים נרדפות ועל כן הקלדתן בשורת החיפוש תביא לאחזור הרבה תשובות דומות
לעומת זאת, המילה "קיצנאייד" לא הוגדרה כמילה נרדפת למילים אלה, ועל כן הקלדתה בשורת החיפוש לא תניב תוצאות, למעט תוצאה אחת בה השליפה התבצעה טקסטואלית, ולא מפני שהוגדרה בטבעת המילים

טבעת זו הינה למעשה סט של מילים המוגדרות כשקולות מבחינת משמעותן/פירושן לצורכי אחזור, קרי מילים נרדפות (יצוין כי לעיתים המילים אינן זהות לחלוטין, אולם הן מרמזות זו על זו וכד'). הסיבה לבניית טבעת של מילים נרדפות הינה ההבנה כי אנשים שונים נעזרים במינוחים שונים על מנת להגדיר ולתאר דברים דומים/זהים. כ"מוכר מידע", ארצה שכמה שיותר לקוחות ימצאו את דרכם אל האתר/מאגר המידע שלי, ועל כן אנסה לכסות כמה שיותר וריאציות וניסוחים של המידע אותו אני מוכר. כך, כשהמשתמש מקיש ערך כלשהו בשדה החיפוש, הערך נבדק אל מול טבעת המילים הנרדפות. במידה והערך נמצא בטבעת, אזי מוחזרות תוצאות עבור כל אותן המילים המרכיבות את הטבעת, ביניהן המילה אותה הקיש המשתמש. דוגמא לאתר העושה שימוש מובהק בטבעת מילים נרדפות הינו האתר להשוואת מחירים - זאפ, כפי שמודגם בתמונה:

טבעת המילים הנרדפות טומנת בחובה גם בעיתיות: היות ותהליך הרחבת השאילתא מתרחש מאחורי הקלעים, התוצאות עלולות לבלבל את המשתמש מאחר וייתכן והן לא כוללות את המילה שהזין בשדה החיפוש או שהן כלל לא רלוונטיות עבורו. השימוש במילים נרדפות יכול לשפר משמעותית את האחזור (המסמכים הרלוונטיים הקיימים/המסמכים הרלוונטיים שאוחזרו) אך מנגד הדבר עלול להפחית את הדיוק (כלל המסמכים שאוחזרו/המסמכים הרלוונטיים שאוחזרו). האיזון הנכון בין השניים יכול להתקבל ע"י ממשק מעוצב ומותאם למטרותיו של המשתמש.

קובץ סמכות (Authority Files)[עריכה]

בהגדרה, קובץ סמכות הינו קובץ המכיל מינוחים מועדפים או ערכים מקובלים בתחום מסוים, אולם אינו כולל בתוכו מילים נרדפות. עם זאת, בפועל קובץ הסמכות מכיל מינוח מועדף ומילים נרדפות למינוח זה (ולעיתים אף ראשי תיבות, קיצורים פופולאריים ועוד), על מנת לייעל את תהליך החיפוש. נשאלת השאלה – מדוע אנו בכלל זקוקים לקובץ סמכות? האם לא ניתן להסתפק בטבעת המילים הנרדפות? לשאלות אלה ישנן מספר תשובות:

  • קובץ הסמכות מהווה כלי חשוב עבור כותבי התוכן והממפתחים, היות ובעזרתו הם יכולים לעשות שימוש במינוחים מקובלים בצורה יעילה, וחשוב מכך - עקבית.
  • המינוח המועדף הינו למעשה המזהה הייחודי עבור כל אוסף מילים נרדפות של אותו הערך. מצב זה מאפשר עריכה, מחיקה והתאמה יעילה של ערכים ונוסחים.
  • שימוש במינוחים מוסכמים יכולים לסייע אף למשתמש בתיקון טעויות כתיב/הקלדה, בהכרת טרמינולוגיות בנושאים שונים ועוד. כך למשל פועל האתר זאפ - במידה והמשתמש הקליד בשדה החיפוש מונח כלשהו, אולם שגה באיות, המערכת תדע "לקרוא את מחשבותיו" ותאחזר את הפריטים הנכונים. בדרך זו המשתמש ילמד את האיות הנכון של שם המוצר אותו חיפש.

ניתן לומר כי מטרת העל של קובץ הסמכות הינו להביא את כלל המשתמשים לדבר ולחפש באותם המינוחים: מרגע שהמשתמש ינסח את השאילתות שלו במילים המקובלות ו"הנכונות", התוצאות שיקבל יהיו רבות יותר, מדויקות יותר ורלוונטיות לצרכיו.

המשתמש חיפש אחר הערך "טלביזיות", המערכת זיהתה את טעות הכתיב ואיחזרה את הפריטים הנכונים הקשורים לערך "טלויזיות"

מינוחים מועדפים הינם חשובים ומסייעים הן בפונקצית החיפוש והן בפונקצית השיטוט. האינדקסים ואפשרויות הניווט צריכים להיות קצרים ומדויקים, וכמובן שלא יוכלו להכיל את כלל המילים הנרדפות, שאז לא יהיה ניתן למצוא דבר מפאת העומס שייווצר. לכן, במידה ולמילה/מינוח מסוים ישנן מילים נרדפות המתחילות באותיות שונות, יש צורך ביצירת מצביעים למיקום בהם יהיה ניתן למצוא את הערך, לדוגמא: "אליגטור" - ראה "תנין". יצירת מצביעים אלה נקראת "רוטציית מינוחים" (term rotation) והיא משפרת בצורה דרמטית את יעילות האינדקס באתר וכמובן משפיעה על מידת שביעות הרצון של המשתמש.

תרשימי סיווג (Classification Schemes)[עריכה]

תרשימי הסיווג נועדו ליצירת היררכיה/דירוג בין המונחים המועדפים בצורת עץ מסועף. תרשימים אלה הינם מחד, פרונטאליים ומהווים חלק מממשק המשתמש, ומאידך, מהווים כלי של "מאחורי הקלעים", בו נעזרים כותבי התוכן והממפתחים במלאכת סידור ותיוג המסמכים. תרשימי הסיווג מאפשרים לבנות היררכיה בה נושא רחב מסתעף לתתי הנושאים המרכיבים אותו. בצורה זו, יוכל המשתמש למקד את תחום החיפוש שלו וכך להביא לתוצאות אחזור טובות יותר. כך למשל, באתר להשוואת מחירים - זאפ, כל קטגוריה מסתעפת לתת קטגוריות על מנת למקד את השאילתא:

קטגורית על
תתי קטגוריות

סיכום[עריכה]

כפי שתיארנו בפרק זה, שפות מבוקרות הינם חלק חיוני ואינטגרלי בכל מערכת. אי אפשר לצפות מהמשתמש במערכת לקלוע בדיוק לדעתו של מתכנן ובונה המידע לעניין אופן סידור המידע במערכת, הביטויים אשר שימשו את מפתחי האתר והטייתם התחבירית. על מנת לייצר אתר שימושי, על מפתחי האתר להבין כיצד פועל מוחו של המשתמש, ולייצר שפה מבוקרת בה אשר תכלול את אופן השימוש באתר וכן את שימוש הביטויים בשפה. מפתחי האתר אף צריכים לשכלל את החלוקה ההגיונית של הביטויים בהתאם לשימוש באתר ולפתח את הקשרים הלוגיים והחברתיים בין הביטויים השונים. שפה מבוקרת מתוכננת היטב ודינאמית, תאפשר בניית ותחזוקת מערכת בעלת שימושיות גבוהה, הגברת שביעות רצון המשתמש והשגת מטרות האתר בצורה הטובה והיעילה ביותר, בין אם מדובר במכירה, פרסום או שימוש חוזר.

מקורות[עריכה]


הפרק הקודם:
תזאורוסים ושפה מבוקרת
שפות מבוקרות הפרק הבא:
תזאורוסים