Як наші читачі ABBYY допомогли
Вітаю. Прочитавши у 78 номері великий лист Ігоря про FineReader, хочу поділитися своїм досвідом роботи з цією програмою. 1. Про кінці абзаців. FineReader використовує при розпізнанні текстові блоки, за визначенням між собою не пов'язані, тому текст усередині них програма розглядає як окремі закінчені тексти. (Якщо відкрити новий текстовий документ у ворді, то там теж буде в кінці стояти символ абзацу.)
Такий підхід розробників FineReader особливо зручний при розпізнаванні уривчастих шматків тексту зі сторінок. Для зрощування колонок я використовую наступний простий спосіб: після розпізнавання пробігаюсь по сторінках додаючи в кінці текстових шматків поєднання символів, що не зустрічаються, окремо для шматків закінчених переносами і цілими словами.
3. Проблема з не знаходженням кінця абзацу іноді є, проте лікується завданням більшого за шириною текстового блоку.
4. З машинками, що пишуть, дійсно все складно. Був випадок з п'ятою версією FineReader, коли у великому тексті невпевнено розпізнавалася буква Е. Однак, при погляді в оригінал я виявив її повну відсутність у словах. Програма підняла символ із зам'ятості паперу літерою!!
Взагалі я думаю що якість розпізнавання з машинки більше залежить від конкретної машинки, а не від FR. Описана ж Ігорем проблема зустрічається зазвичай під час спроби навчання FR, а цей процес на малих обсягах тексту невигідний з міркувань витрат часу.
Простіше використовувати автозаміну, адже та сама буква передається при неправильному розпізнанні однаковим набором символів.
5. Авто позиціонування сторінки можна вимкнути у налаштуваннях сканування, однак це вплине на якість та швидкість розпізнавання тексту.
6. Про зберігання пакетів.Заняття дивне, задоволення сумнівне.
Мені треба зберігати оригінали текстів по півроку. Папір незручний, тифи громіздкі. Беру тифи з пакета та конвертую в jpeg. FineReader може імпортувати зображення для розпізнавання з купи форматів. Тож і тут треба використовувати потрібні інструменти, а не хотіти неможливого від OCR програм.
Якщо ж, як у Ігоря, відсканована якась цінна книга, то краще зробити PDF конвертувавши текст з ворда, або (щоб не мучитися з розпізнаванням, коректурою та іншим) зробивши його з тифозників у PM, QX, на крайній край знову ворд. Адже якщо знадобиться перерозпізнати, то FineReader завантажить і PDF.
Можливо розширення наборів інструментів FineReader не зашкодить, але зворотним боком цього процесу буде збільшення програми самої по собі і як можливі наслідки повільна робота, подорожчання (і так шалено дорогий для пересічного українського користувача програми) та можлива нестабільність роботи.
PS: Шановна редакція Upgrade перепрошую за допущені в листі помилки, циклічні повторення, не вирівняний по ширині текст, адже хто з нас на це не страждає.
З повагою, Кривий Гоблін
Здрастуйте, редакція Upgrade Отже, щодо листа нашого користувача пана Івана Петрова, в якому він хоче впливати на розробників програми ABBYY FineReader. :))) Ми подивилися в себе вказані ним моменти, потестували, і ось до чого прийшли.
По-перше, треба сказати, що Гоблін так добре і вичерпно відповів першому, що, чесно кажучи, додавати навіть особливо нічого не хочеться… :))) Тож ми орієнтуватимемося на його листа і трохи його поправлятимемо і доповнюватимемо.
Якщо за пунктами: 1. Щодо кінців абзаців – див. лист Гобліна. Такий підхід до виділеннякінців абзаців, з одного боку, продиктований деякими технологічними особливостями програми, з іншого боку, думки щодо зручності чи незручності такого підходу для користувачів розходяться – комусь це зручно, комусь ні. Один з методів боротьби з кінцями абзаців, що заважають, грамотно описаний Гобліном в його листі.
3. див. лист Гобліна. Знову ж таки можемо сказати, що ми над цим завданням працюємо і постараємося її вирішити до наступних версій FineReader.
4. Опція "пишуча машинка", само собою, розрахована на якусь усереднену друкарську машинку. Ця функція може працювати краще або гірше залежно від кожної конкретної машини. У зазначеному випадку, думаю, проблема була саме в друкарській машинці користувача.
У цілому нині, опція “пишуча машинка” покликана забезпечити підвищення якості розпізнавання на документах певного виду. Але тут все надто індивідуальне. Якщо в окремих випадках включення цієї функції не покращує якості розпізнавання – можна обійтися без неї.
При цьому, якщо обсяги тексту великі, а документ досить нестандартний (незвичайний шрифт, старовинна друкарська машинка і т. д.), має сенс використовувати навчання - "натягти" FineReader на розпізнавання конкретного документа. Якість розпізнавання у разі значно підвищується.
5. Питання з перекосом сторінки треба уточнити. Отже, пан Петров мав на увазі, що FineReader автоматично виправляє перекіс сторінки (якщо сторінка неправильно відсканована або криво пройшла факсом) – повертає її на кілька градусів. При цьому іноді дійсно виникає ситуація (якщо, наприклад, перекіс сторінки був задуманий для художнього оформлення), коли FineReader намагається виправити неіснуючий перекіс.
У цьому випадку картинки насторінці можуть бути під час експорту повернені на кілька градусів (на кут виправлення перекосу). Відразу зауважимо, що як розпізнавання тексту це аж ніяк не позначається. При цьому хочеться ще раз нагадати, що FineReader – все ж таки програма розпізнавання, і від неї не можна вимагати неможливого. 🙂
Функція виправлення перекосу сторінки покликана покращити якість розпізнавання, оскільки текст із перекосом, само собою, розпізнається набагато гірше. Судячи з відгуків величезної кількості користувачів, ця функція зі своїм завданням справляється.
Що ж до того, як відповів це питання Гоблін – це, мабуть, єдиний момент, у якому він помилився: він сплутав виправлення перекосу з автопозиціонуванням сторінки. FineReader вміє визначати орієнтацію сторінки (якщо вона відсканована нагору ногами або боком) і перевертати її як слід. Ось ця функція дійсно відключається – у меню є така опція.
6. Тепер питання, яке викликало найбільше обурення пана Петрова – формат зберігання пакета у FineReader. По-перше, відразу слід зазначити, що FineReader використовує свій внутрішній формат, який називається TIF, і цей формат не треба плутати зі звичайним TIF. Це зовсім різні речі. 🙂 Тепер про сутність питання.
Справді, у п'ятій версії “Файну” пакет зберігався у стислому “тифі”. Це негативно позначалося на якості розпізнавання пакета – адже при стисканні так чи інакше втрачається якість зображення. Тому в шостій версії пакет зберігається у звичайному "тифі", несжатому. З одного боку, це збільшує розмір пакета (насамперед на кольорових і сірих зображеннях), з іншого боку, забезпечує помітно кращу якість розпізнавання.
І ми дійсно не збираємося повертати зберігання пакетів у стислому"тифе", оскільки для переважної більшості наших користувачів основним критерієм якості програми є якість розпізнавання, заради чого ми змінили параметри зберігання пакета в FineReader.
Тим паче, що, як слушно зазначив Гоблін у своєму листі, відскановані зображення краще зберігати не в пакеті, а в звичайному графічному форматі типу JPEG або в PDF – FineReader легко їх за потреби перерозпізнає. При цьому заощаджується місце на диску. Спочатку пакет FineReader не призначений для тривалого зберігання зображень.
Існують набагато компактніші формати, що дозволяють зберігати зображення практично без втрати якості. Ще один варіант – зберегти пакет у чорно-білому форматі (у меню FineReader є така опція) – це також зменшить розмір файлів.
Ну і, звичайно ж, ми не укладали жодної угоди з виробниками вінчестерів… :))))
З повагою група розробників FineReader