Безкоштовна програма для розпізнавання тексту FreeOCR не дружить з українською мовою

До недавнього часу був впевнений, що немає безкоштовних програм для розпізнавання відсканованого тексту, коли треба документи, книги пригнати на комп'ютер. Є тільки монстри, начебто популярного у нас ABBYY FineReader, за який обов'язково доведеться викладати немаленькі гроші. Але виявилося, що є безкоштовні OCR (оптичне розпізнавання символів) програми, розвиток яких підтримують ентузіасти. Серед таких представників абсолютно безкоштовний додаток для розпізнавання текстуFreeOCR.

Обов'язково перевірте перед початком установки, щоб комп'ютер був підключений до інтернету, тому будемо запускати оболонку, яка завантажуватиме всі необхідні файли, адже інсталяційний файл важить всього 150 кб, і туди точно неможливо помістити все необхідне для роботи настільки складної програми. Розробники попереджають, що буде завантажено додатково 11 мегабайт, у моєму випадку папка із встановленою програмою важить 4 Мб. В іншому стандартний перелік питань, у яку папку ставитиме і підтвердження ліцензійної угоди.

Запустивши програму, несподівано отримуємо просте, але цілком сучасний інтерфейс. Навіть хотів сказати, що там є стрічкове меню, але його там немає, просто розробникам вдалося все так стильно і органічно зробити.

FreeOCR може розпізнавати текст з документів, отриманих з PDF файлів (працює з ними досить повільно і гальмується, коли перегортаєш сторінки), графічних фалів (підтримуються всі основні формати) і зі сканера (тиснемо на кнопку, вибираємо один з доступних сканерів, а далі все на автоматі, ніяких налаштувань непропонується). Власне цьому і присвячено меню з великими іконками, під основним, які промовисто розкажуть про своє призначення. Хто запитує, навіщо потрібна кнопка «OSR», власне поле натискання неї і відбувається розпізнавання тексту.

Все вікно програми розділене на дві половини, в лівій стороні знаходиться каретника з текстом, яке треба розпізнати, а з правого, текст, результат роботи програми.

Тепер треба розповісти про деякі нюанси роботи FreeOCR. Програма не може автоматично розбивати сторінку на колонки, або визначити, де саме знаходяться картинки, тому для отримання нормальних результатів ту частину зображення, яку треба розпізнати необхідно, виділити, затиснувши праву кнопку миші. На бічній панелі є кілька кнопок, які дозволяють полегшити з картинками, це зум, обертання на 90 градусів (коли текст лежить боком) і перегортання багатосторінкових документів.

Тільки ось з мовами вийшла затримка, з текстом англійською справляється непогано, але замість рисських слів видає набір символів. Як виявилося, яку мову треба використовувати при розпізнаванні тексту, вибираємо вручну з меню праворуч вгорі, воно підписано «OSR Language». За замовчуванням йде лише англійська, решту доведеться додавати окремо.

Для початку оговтуємося за посиланням http://code.google.com/p/tesseract-ocr/downloads/list, знаходимо потрібну нам мову, серед купи фалів і завантажуємо собі на комп'ютер. Розпаковуємо архів, приходимо в програмі в розділ меню «Settings-Open Language Folder», і в папку, що відкрилася, перетягуємо файли з архіву. Перезапускаємо і нова мова додана у меню FreeOCR.

Тільки ось у мене навіть після додавання української мови, програма наполегливо не хоче розуміти цю мову,показуючи, що почався процес обробки, але без результатів, залишається порожнє місце, не розпізнавання тексту, хоча з англійською працює чудово. Поки як із цим боротися не ясно, експериментуватиму і якщо знайду рецепт лікування, розповім його.

Як виявилося двигун Tesseract OSR (що це таке, написано нижче) який тут використовується для розпізнавання тексту старої версії 2.04, зараз актуальний 3.0, і в ньому підтримки української мови, тільки англійська, німецька, іспанська, італійська, французька та ще кілька екзотичних. Загалом, за всієї своєї перспективності, програма в нинішньому вигляді є абсолютно марною в нашій країні, поки не почне використовувати Tesseract OSR 3.0, а там нормально підтримується українська мова. Саме для цієї версії готова підтримка розпізнавання тексту великої кількості мов.

Налаштувань у програмі немає, все працює в автоматичному режимі.

Тепер хочу трохи розповісти звідки з'явився FreeOCR. Як виявилося двигун, який розпізнає текст, взятий з відкритого проекту під назвою Tesseract OSR. Розробники FreeOCR тільки зробили свою оболонку і максимально автоматизували, щоб не смикати користувачів зайвими питаннями.

При всьому песимізмі перед початком роботи FreeOCR він дійсно працює і виявився дуже доброзичливим до користувачів. У всьому можна розібратися протягом кількох хвилин. Але це стосується лише англійської мови, яка йде за умовчанням, додавши підтримку інших мов, можна охарактеризувати мою боротьбу.

Ще є досить серйозні недоліки, це не впевнене розпізнавання символів, надто багато виникає помилок, потім доводиться витрачати час на перевірку правопису та все перечитувати. Але найголовніше це підтримка малої кількості мов,українська не входить до списку обраних. У нинішньому стані не рекомендую використати. Хоча хтось працює з документами англійською мовою, може стати непоганим вибором, адже можна безкоштовно використовувати навіть у комерційних організаціях.

Прекрасно працює у 32-х та 64-х бітних операційних системах. Інтерфейс програми тільки англійською мовою, але пунктів і написів трохи тому не важко розібратися.

Сайт для безкоштовного скачування FreeOCR http://www.paperfile.net/

Остання версія на момент написання FreeOCR 3.0

Розмір програми: файл інсталяції 156 Кб

Сумісність: Windows Vista та 7, Windows XP