Hocr - הפיכת תמונה עם אותיות עבריות לקובץ טקסט/המרה לטקסט

מתוך ויקיספר, אוסף ספרי הלימוד והמדריכים החופשי.

קפיצה אל: ניווט, חיפוש


תוכן עניינים

[עריכה] סידרה 0.10

התכנה מגיעה עם שלושה מנשקים שונים המאפשרים להוציא את המקסימום מיכולות התכנה. מנשק גרפי hocr-gtk , קל לשימוש ולמידה, המיועד לשימוש עבור מספר מצומצם של קבצי תמונה. מנשק שורת פקודה hocr, המאפשר אוטמציות פשוטות על מספר רב של קבצי תמונה ושליטה טובה יותר על הפרמטרים השונים של הפעלת התכנה. מנשק תכנותי, בשפת פיתון hocr-python, המאפשר כתיבת תסריטים מורכבים במשתמשים ביכולות המתקדמות של התכנה.

[עריכה] hocr-gtk

מנשק גרפי קל לשימוש ולמידה המיועד למספר מצומצם של דפים. ניתן לגשת אל התכנה מתוך תפריט "משרד" בשולחנות העבודה של gnome ו kde הנפוצים ברוב הפצות הלינוקס.

hocr-gtk מכיל מעבד תמלילים פנימי המאפשר הגהה קלה של הטקסט

תהליך ההמרה של תמונה לקובץ טקסט כולל מספר שלבים:

[עריכה] סריקה ישירות מהסורק

כדי לסרוק קובץ ישירות מהסורק נלך לתפריט "קובץ" וניבחר באופציה "סרוק". יפתח חלון חדש בו נוכל לבחור את הסורק בו אני רוצים להשתמש ואת הקטע בדף אותו נרצה לסרוק.

[עריכה] שימוש בקובץ שניסרק מראש

כדי להשתמש בקובץ תמונה שניסרק מראש נלך לתפריט "קובץ וניבחר באופציה "חדש". יפתח חלון חדש בו נוכל לבחור בקובץ אותו אנו מעוניינים להמיר לקובץ בר עריכה וחיפוש.

[עריכה] ביצוע ההמרה לטקסט

לאחר שיש לנו קובץ תמונה בחצי העליון של חלון התכנה נלך שוב לתפריט "קובץ" וניבחר באופציה "החל". התכנה תתחיל לבצע עיבוד וזיהוי. תהליך העיבוד והזיהוי יכול להיות ארוך מאוד, ניתן לעקוב אחר התהליך בעזרת פס התקדמות שיפתח בתחתית החלון, פס התקדמות זה יתמלה ויתרוקן שלוש פעמים לפני שהתכנה תסיים את תהליך הזיהוי, פעם אחת עבור תהליך עיבוד התמונה, פעם שניה עבור תהליך זיהוי עימוד הדף ופעם שלישות עבור זיהוי האותיות.

[עריכה] הגהה ושמירה

לאחר סיום ביצוע הזיהוי ע"י התכנה יש לבצע הגהה ידנית של הטקסט. טקסטים שהודפסו איכותית וניסרקו בהפרדה גבוהה לא יצריכו הגהה כלל, טקסטים שהודפסו בצורה לא מושלמת או טקסטים ישנים בהם האותיות אינן ברורות יצריכו הגהה מרובה. לאחר סיום ההגהה ניגש שוב לתפריט "קובץ" ונוכל לשמור את התוצאה הסופית של תהליך זיהוי האותיות לתוך קובץ אותו נוכל לערוך בכל מעבד תמלילים או עורך טקסט.

[עריכה] hocr

מנשק שורת פקודה המאפשר אוטמציה פשוטה ושליטה טובה יותר על הפרמטרים השונים של התכנה.

hocr מאפשר אוטמציה מתוך שורת הפקודה

[עריכה] עזרה

ניתן לקבל מידע על השימוש בתכנה מדפי הערה המובנים במערכת:

 man hocr

או ע"י שימוש בדגל help

 hocr --help

[עריכה] הפעלת התכנה

שימוש רגיל בתכנה יראה כך:

 hocr -i image-in.png -o text-out.txt

או כך:

 hocr -i image-in.tiff -h -o text-out.html

קידוד הטקסט יהיה תמיד utf-8

[עריכה] hocr-python

משתמשים המעוניינים להכין תסריטים מורכבים בשפת פיתון, המשלבים את היכולת המתקדמות של התכנה, יוכלו לעשות זאת ע"י יחידת תכנה מיוחדת עבור שפת פיתון. היחידה המאפשרת שימוש בכל אפשרויות התכנה ואף כניסה למאפיינים ויכולות שאינן נגישות מתוך המנשקים האחרים.

[עריכה] דוגמאות ורפרנס

תסריט דוגמה המשתמש ב hocr לביצוע זיהוי האותיות וב gtk לצורך יבוא קובץ התמונה: hocr_python.py

import sys
import gtk
 
# import the ocr unit
from hocr import *
 
# load the picture
gtk_pix = gtk.gdk.pixbuf_new_from_file (sys.argv[1])
 
# Create an hocr pixbuf
pix = ho_pixbuf_new (gtk_pix.get_n_channels(), 
            gtk_pix.get_width(), gtk_pix.get_height (),
            gtk_pix.get_rowstride ())
 
ho_pixbuf_set_data (pix, gtk_pix.get_pixels())
 
# create a new hocr object
hocr_obj = Hocr(pix)
 
# do ocr
hocr_obj.do_ocr()
 
# print text
print hocr_obj.get_text()

דוגמאות נוספות לשימוש בתסריטים ניתן לראות באתר התכנה: תסריטים לדוגמה

קישור לדפי המידע על פקודות ואובייקטים הקיימים ביחידה: hocr reference

[עריכה] סידרה 0.8

סידרה 0.8 אינה נתמכת יותר ע"י המפתח. רצוי לעבור לסידרה מתקדמת יותר, אך ניתן גם לחפש עזרה בפורומים השונים המספקים תמיכה בתוכנה חופשית.

[עריכה] hocr-gtk

מנשק גרפי קל לשימוש ולמידה המיועד למספר מצומצם של דפים. ניתן לגשת אל התכנה מתוך תפריט "משרד" בשולחנות העבודה של gnome ו kde הנפוצים ברוב הפצות הלינוקס. השימוש במנשק דומה מאוד לשימוש במינשק הגרפי של סידרה 0.10

[עריכה] hocr

מנשק שורת פקודה המאפשר אוטמציה פשוטה ושליטה טובה יותר על הפרמטרים השונים של התכנה. השימוש במנשק דומה מאוד לשימוש במינשק שורת הפקודה של סידרה 0.10

קידוד הטקסט יהיה תמיד utf-8


הפרק הקודם:
התקנה
המרה לטקסט הפרק הבא:
ממשק