סקירה: תכנות OCR התומכות בשפה העברית

תכנות OCR הן תכנות המזהות טקסט מודפס או סרוק או שמור כתמונה (לא כתב יד), ומפיקות את אותו הטקסט בפורמט דיגיטלי הניתן לעריכה. התכנות היותר מקצועיות, יודעות גם להוציא פלט עם הפונט המקורי, או פלט עם הטקסט במיקומו המקורי – מאפיין החשוב במיוחד כאשר הטקסט המקורי הופיע בעמודות או כשהיו בעמוד המקורי גם אלמנטים גרפיים כמו איורים או תמונות.

בעברית קיים מגוון מצומצם של תכנות כאלה, אך עדיין תוכלו למצוא תכונות המספקות תוצאות משביעות רצון, או תכנות חינמיות ואפילו בקוד פתוח.

כמובן שלא תמיד הליך הזיהוי מושלם, אך אם התוכנה טובה דיה והזיהוי מספיק איכותי, קל יותר יהיה לתקן את הטעויות מאשר להקליד את כל הטקסט מחדש. ככל שהטקסט אותו רוצים להמיר לדיגיטלי ברור יותר, כך גובר הסיכוי לזיהוי הנכון של האותיות. לכן רצוי לבצע את הסריקה כשהטקסט ישר ולא נוטה לצדדים. אם הסריקה מתבצעת על ספר, רצוי שהדף יהיה שטוח ולא שהטקסט הקרוב למקום חיבור של הדפים יהיה נוטה כלפי פנים.

המקצועיות בתשלום

מבין השתיים הראשונות התקשינו להחליט מי איכותית יותר.

ABBYY FineReader
התוכנה מגיעה במגוון גרסאות: לטלפון נייד, למחשב, לענן או שרת אינטרנט. הזיהוי די מדויק עם כמות שגיאות קטנה, שמירה על מבנה טקסט שכתוב במקור בעמודות ושמירה על תמונות במיקומן המקורי.
גרסת ניסיון להורדה והתקנה מהאתר הישראלי: http://abbyy.co.il/?categoryId=100180
גרסת ניסיון מקוונת באתר הרשמי: http://finereaderonline.com

Convertio
תכנה מקוונת (פועלת און ליין, ללא הורדה). אותם היתרונות כמו ABBYY FineReader. הרכישה לפי כמות הפעמים של הפעלת התוכנה. מאפשרת 10 הפעלות ניסיון: http://convertio.co/ocr

Readiris
תוכנה לטלפון נייד או למחשב. פחות התרשמנו מרמת הדיוק. גרסת ניסיון המוגבלת ל 10 ימים ועד 100 הפעלות: http://irislink.com/EN-US/c1314/10-Day-FREE-Trial—Experience-Readiris-Pro-15–OCR-Software—-LP.aspx

Ligature
תוכנה למחשב, לענן או שרת אינטרנט, מבית היוצר של חברת ליגטורה הישראלית. הסיבה שלא בדקנו היא, מפני שגרסת ההתנסות המאפשרת עד 12 הפעלות ועד 3 ימים, עולה גם כן כסף: http://ligatureltd.com

החינמיות

אל תצפו לאותה רמת דיוק בזיהוי, בכל זאת, הן חינמיות, אבל לצרכים קטנים הן יכולות לסייע, במיוחד לאור העובדה שהתכנות המקצועיות עולות סכומים בלתי מבוטלים.

אתרים המספקים את השירות באופן מקוון:
http://to-text.ne
http://newocr.com
http://i2ocr.com/free-online-hebrew-ocr

hocr
פותחה ע"י ד"ר קובי זמיר. למפתחי תכנות, קיימת גם האפשרות להוריד את הקוד הפתוח שכתוב ב ++C/C.
הסבר על התוכנה: http://he.wikibooks.org/wiki/Hocr_-_הפיכת_תמונה_עם_אותיות_עבריות_לקובץ_טקסט
גרסה מבוססת http://code.google.com/archive/p/qhocr :Qt4 או http://code.google.com/archive/p/hebocr
גרסה מבוססת http://packages.debian.org/sid/hocr-gtk :GTK או http://sourceforge.net/projects/hocr.berlios

Hebrew OCR with Nikud
פותחה ע"י סטודנטים מאוניברסיטת בן גוריון – ורד שני ועדי עוז, תחת הנחייתו של פרופ' מיכאל אלחדד. התוכנה מבוססת GTK ויודעת לזהות גם ניקוד: http://www.cs.bgu.ac.il/~elhadad/hocr

OCR program for Yiddish
פותחה ע"י Ulrich Greve, יודעת לזהות עברית, יידיש וכן ניקוד: http://tichnut.de/jewish/yiddishocr.html


כתיבת תגובה


www.000webhost.com