ארכיטקטורת מידע/תזאורוסים ושפה מבוקרת/תזאורוסים

מתוך ויקיספר, אוסף הספרים והמדריכים החופשי

על פי הגדרה מילונית, תזאורוס הינו ספר של מילים נרדפות אשר לעיתים מכיל הקשרים אסוציאטיביים, מילים מנוגדות והפכים. התזאורוס מהווה רשת סמנטית של קונספטים ונושאים הקשורים זה לזה, בצורה כזו או אחרת, בין אם בצורת הפכים, מונחים רחבים - מונחים צרים, הומונים (מילים הנכתבות באותה הצורה אולם משמעותן שונה זו מזו) ועוד.

לעומת התזאורוס המסורתי והנפוץ, התזאורוס עליו אנו מדברים הוא כזה המושתת על מאגר מידע וירטואלי והמותאם לממשק המשתמש. מטרת התזאורוס הינה לנהל ולמפות את המילים הנרדפות ואף לצמצם את הטבעת לכדי מונח/קונספט מועדף אחד, על מנת שהעמימות שבריבוי המילים לא ימנע מהמשתמש למצוא את מבוקשו.

לסיכום, התזאורוס הינו שפה מבוקרת בה שלושת היחסים הסמנטיים (היחסים השקולים, היחסים ההיררכיים והיחסים האסוציאטיביים) מזוהים ומוגדרים על מנת לשפר את ביצועי אחזור המידע.


מונחים טכניים[עריכה]

כאשר עובדים עם שפות מבוקרות ותזאורוס, ישנם מספר מונחים בסיסיים אשר משמשים מומחים בתחום. המשתמש הממוצע אינו מכיר את המונחים ואין הם מיועדים אליו.

מונח מועדף (Preferred Term (PT - המונח הנבחר צריך לבטא באופן הברור והמוגדר ביותר את משמעות המושג. על פי התקן יש לבחור את המונח כך שישרת את צרכיהם של מרבית המשתמשים. בפועל, בתזאורוס אינטרנטי יש לבחור את המונח בהתאם לתוכן האתר ומטרתו.

מונח חלופי (Variant Term (VT - זהו המונח הלא מועדף. מילים אלו מקבילות או נרדפות למונח המועדף. הפנייה למונח המועדף תהיה באמצעות הביטוי "ראה גם"

מונח רחב (Broader Term (BT ומונח צר (Narrower Term (NT – הקשר ההיררכי בין המונחים מתקיים כאשר המונח הצר הוא חלק או סוג של המונח הרחב.

מונח קשור (Related Term (RT – מונחים קשורים, או כפי שהם נקראים לעיתים מונחים קרובים הם מונחים הקשורים זה לזה בקשר אסוציאטיבי. בחיפוש מידע- יתכן כי המחפש יתעניין במונח הקשור כי מבחינת תחום העיסוק והשלמת המידע הוא יכול להיות חשוב ומשלים. חשוב לזכור שיחס קרבה כולל את שני המונחים: אם המונח אלימות קרוב למונח תוקפנות המונח תוקפנות יהיה קרוב למונח אלימות

השתמש ב- Use (U - מונח זה דומה ל"מונח חלופי". מצביע למשתמש ולממפתח על המונח המועדף.

משמש ל-(Used For (UF – מצביע על יחס הדדי בין מונח מועדף למונח החלופי

הערת תחום (Scope Note (SN - הערות המספקות הגדרה ספציפית למונח המועדף כדילהגביל את משמעותו ובכך למנוע דו משמעות כמה שניתן.

שימוש בתזאורוסים[עריכה]

התזאורוס נועד לשיפור השימושית באתר בדגש על שיפור החיפוש, הניווט וממשק המשתמש. תזאורוס איכותי יאפשר תיקון שגיאות משתמש, הקלה בחיפוש וניווט בכך שיביא בחשבון את כל המילים הדומות שבהן יעזר המשתמש על הטיותיהן השונות.התזאורוס יצור הצבעה בין מילים נרדפות ומקבילות בשפה, בין אם אלו מקבילות בשפה עצמה או באופן השימוש הרחב בה. התזאורוס יתוכנן על ידי ארכיטקט המידע של המערכת, תוך שיקול צרכי השימוש ובהתאם לכך המילים המקבילות. התזאורוס יבנה כמילון, כך שלכל מילה ישנם מילים או ביטויים נרדפים. מפתח המערכת ישתמש בתזאורוס כך שכל פעם שנעשית פניה (חיפוש, ניווט, קריאה) למילה המופיעה בתזאורוס, תאחזר המערכת את הרשומות בהן מופיעים כל המילים הנרדפות, בהתאם לכללים שהגדיר הארכיטקט.

סוגי תזאורוסים[עריכה]

ישנם שלושה סוגי תזאורוסים: תזאורוס קלאסי, תזאורוס במפתוח, וכן תזאורוס בחיפוש. ההחלטה על סוג התזאורוס תהיה מבוססת על צורת השימוש בתזאורוס. לצורת השימוש תהיה גם השפעה מכרעת על עיצוב האתר

תזאורוס קלאסי (Classic Thesaurus)[עריכה]

בתזאורוס הקלאסי משתמשים הן בזמן מיפתוח מאמר והן בשלב החיפוש. ממפתחים משתמשים בתזאורוס עוד בזמן מפתוח המסמך עצמו על מנת למפות מגוון מונחים ולשייכם למונחים מועדפים. משתמשים אשר נעזרים בתזאורוס בזמן האיחזור, גם אם הם אינם מודעים לתפקיד אותו הוא ממלא בחוויית החיפוש שלהם. מונחי השאילתה מותאמים כנגד אוצר המילים העשיר של התזאורוס. דבר זה מאפשר ניהול מילים נרדפות, היררכיה בין מונחים, וקישור אסוציאטיבי בין המושגים השונים. זהו תזאורוס מושלם המשולב בצורה מלאה באתר.

תזאורוס במפתוח (Indexing Thesaurus)[עריכה]

דוגמא לתזאורוס ברמת המפתח. התזאורוס קיים רק ברמת אוצר המילים, ללא הטמעה בתוך מערכת חיפוש המאמרים באתר. מתוך מרכז הידע לחקר ההזדקנות בישראל.

תזאורוס זה נשאר ברמת המפתח, ללא שילוב במנוע חיפוש. לעיתים לבעל האתר יש את היכולת לפתח אוצר מילים מבוקר ולמפתח מסמכים, אך הוא אינו מסוגל לפתח את יכולת ניהול מילים נרדפות לכדי חווית חיפוש טובה. התאמת מנוע החיפוש לתמיכה בתזאורוס קלאסי דורשת התאמות מרחיקות לכת. החיסרון המרכזי בתזאורוס במפתוח הוא בחוסר היכולת למנף את אוצר המילים המבוקר בשלב החיפוש על ידי החלפת מונחים שונים בהם הגולשים עושים שימוש, במונחים מועדפים. אך בכל זאת לתזאורוס ברמת המפתוח ישנם מספר יתרונות:

  • מייצב את תהליך המיפתוח, מעודד עקביות ויעילות. יש לכל הממפתחים הבנה משותפת של המונחים המועדפים והנחיות זהות למיפתוח.
  • מאפשר בניית מפתח של מונחים מועדפים, כך שמשתמשים יכולים למצוא את כל המסמכים בנושא מסוים דרך נקודת גישה אחת.

תזאורוס ממופתח נותן עמדת פתיחה טובה בדרך ליצירת תזאורוס קלאסי. כאשר ישנו אוצר מילים מפותח אשר בא לידי שימוש באוסף של מסמכים, ניתן להתחיל לפתח ממשק משתמש שעשוי להתחיל עם הוספת עיולים במפתח עד למצב בו הערך המלא של התזאורוס יהיה חלק בלתי נפרד מחווית הגלישה.

תזאורוס בחיפוש (Searching Thesaurus)[עריכה]

דוגמא לתזאורוס בזמן החיפוש. בזמן חיפוש המילה אקמול, הוצעו לגולש מילים נרדפות לחיפוש. מתוך האתר אינפומד

תזאורוס בזמן החיפוש מנתלאת מילות המפתח בו עשה הגולש שימוש ומחליף מילות חיפוש מסויימות במונחים מועדפים, אשר מתאימים יותר ויניבו תוצאות מדויקות יותר. לעיתים תזאורוס קלאסי אינו מעשי. לעיתים בגלל בעיות מצד התוכן אשר מונעות מיפתוח ברמת המסמך. לעיתים כיוון שהתוכן שייך צד שלישי או שמדובר על חדשות דינמיות המשתנות מידי יום. ישנם מצבים בהם כמות התוכן כל כך גדולה שעלויות מיפתוח ידני תהיינה אסטרונומיות. בכל מקרה, ישנם סביבות רבות באינטרנט בהם מיפתוח ויצירת אוצר מילים מבוקר לטקסט המלא, אינו אפשרי. אך עדיין ישנה אופצייה מעשית ליצירת התזאורוס בזמן חיפוש לשיפור חוויית המשתמש.

תזאורוס בזמן חיפוש ממנף את אוצר המילים המבוקר בשלב החיפוש, אך לא בשלב המיפתוח. לדוגמא, כאשר משתמש מזין מונח לתוך מנוע החיפוש, תזאורוס החיפוש יכול לחפש את המונח באוצר המילים המבוקר עוד לפני חיפוש השאילתה באינדקס של הטקסט המלא. התזאורוס יכול למצוא מונחים שקולים, כפי שראינו במקרה של טבעות נרדפוּת, או אולי ללכת מעבר למונחים השקולים ולרדת במורד ההיררכיה על מנת לכלול את כל המונחים הצרים של המונח. שיטות אלו כמובן ישפרו את המיצוי על חשבון הדיוק.

ישנה אפשרות לתת למשתמשים יותר כוח ושליטה על תוצאות החיפוש. ניתן לשאול את המחפש אם הוא מעוניין לשלב בתוצאות השאילתה שלו מונחים מועדפים, חלופות, הרחבות, הצרות או מונחים אסוציאטיביים. שילוב זהיר של אופציה זו בממשק חיפוש התוצאות, יכול למעשה לתת למשתמשים את היכולת לצמצם, להרחיב, ולהתאים את החיפושים שלהם כנדרש.

סטנדרטים[עריכה]

ישנם מספר תקנים המכסים את התקינה בנוגע לבניית תזאורס. תקנים לדוגמא:

  • ISO 2788 (1974, 1985, 1986, International)
  • BS 5723 (1987, British)
  • AFNOR NFZ 47-100 (1981, French)
  • DIN 1463 (19871993, German)
  • ANSI/NISO Z39.19 (1994, 1998, 2005, United States)

תקנים אלו בנויים על עשרות שנים של מחקר וניסיון. יש בתקנים אלו עדיין מידה רבה של רלוונטיות. עם זאת, אין לפעול בהתאם להנחיות בצורה עיוורת, כעת אנו עוסקים במערכות מקוונות לחלוטין. לא תמיד הנחיות אלו יתאימו לתזאורוס האינטרנטי של ימינו.

תזאורוסים בבינה מלאכותית[עריכה]

בתחום הבינה המלאכותית מקובלת הגדרה, שנקבעה ע"י המדען אלן טיורינג, האומרת כי מחשב ייקרא בעל תבונה, אם יוכל לשטות באדם כך שיטעה לחשוב שבן שיחו הוא אדם. מבחן טיורינג (TURING TEST) מורכב משואל שאלות אנושי המעביר את שאלותיו דרך מקלדת. בעוד מן העבר השני משיבים לו שניים: אדם אמיתי ומחשב. האם יזהה השואל מי הוא מי מתוך התשובות שיקבל? מחשב "חכם" יוכל כמובן לבלבל את הבוחן.

האם תזאורוס יכול לשמש אמצעי "לבלבל את הבוחן" ? האם אדם אשר ישלח שאילתות למערכת בעלת תזאורוס מתוחכם יגרום למשתמש חשוב כי המערכת נותנת מענה אנושי?

המגבלה העיקרית של תזאורוס הינה קשרים בין ביטויים אשר אינם מותווים בתזאורוס מלכתחילה ואשר מתכנן התזאורוס לא חשב עליהם. בנוסף לכך קשרים יכולים להתעדכן ולהשתנות עם זמן או ברגע נתון. לדוגמא אסון אווירי והתפרצות הר געש לא היו ביטויים קשורים עד לא מזמן, וכיום משתמשים רבים ירצו לראות את הקשר ביניהם. סביר להניח שף מתכנן תזאורוסים לא חשב לקשור בין ביטויים אלו.

בנוסף לכך קשרים בין ביטויים ישתנו מתרבות לתרבות,מיקום וגילאים שונים. הביטוי עכבר יקביל אצל מחפש תל-אביבי למדריך בילויים ומחפש מושבניק יעדיף למצוא מדביר.

אם-כך תזאורוס איכותי יהיה כזה שיתעדכן בצורה שותפת בביטויים השונים והקשרים שהמשתמשים רואים כרלבנטיים. לא רק זאת, אלא שהתזאורוס יכול להחזיר תוצאות שונות למשתמשים בעלי פרופילים שונים (גיל, מין וכו'). בצורה כזאת המשתמש ירגיש כי מאחורי המערכת עומדת בינה כלשהי שיודעת להחזיר לו תוצאות רצויות בעלות קשרים אסוציאטיביים בעיקרם.

בניה של תזאורוס שכזה הינו נושא למחקר כיום במרבית מערכות החיפוש ומערכות בינה מלאכותית. להלן מספר דוגמאות לטכניקות שבהן ניתן להשתמש:

  • פילוח דפים פופולאריים שאוחזרו ואליהם ניגשו המשתמשים ומיפוי הביטויים בהם בתזאורוס כביטויים קשורים לביטוי המקורי (מועדף) באמצעותו התבצע החיפוש.
  • הוספת שדה בתזאורוס של קשרים פופולאריים בין ביטויים לפי סוג אוכלוסיה (גיל,מין, מיקום...) ואחזור בהתאם.
  • סקר משתמשים לגבי קשרים פופולאריים
  • עדכון שוטף של ביטויים וקשרים ע"י מתכנן התזאורוס.

כל אחת מהטכניקות תתרום ליצירת תחושה אצל המשתמש כי המערכת מתעדכנת לפי צרכיו ולפיכך מכילה בינה. עדכון אוטומטי באמצעות רכיבי תוכנה בזמן אמת יהפוך את התזאורוס למערכת "לומדת" אשר הינה מרכיב בבינה מלאכותית.


מקורות[עריכה]


הפרק הקודם:
שפות מבוקרות
תזאורוסים הפרק הבא:
טופולוגיה