Оцифрування текстів за допомогою ABBYY FineReader
Припустимо, ви любите друкувати. Просто любите набирати тексти, натискаючи клавішу за кнопкою. Але навіть у цьому випадку сумнівно, що необхідність загнати в комп'ютер стостодесятисторінковий реферат або доповідь приведе вас у захват. Припустимо, ви любите друкувати. Просто любите набирати тексти, натискаючи клавішу за кнопкою. Але навіть у цьому випадку сумнівно, що необхідність загнати в комп'ютер стоп'ятдесятисторінковий реферат або доповідь приведе вас у захоплення та розпинання всією внутрішньою структурою документа. Саме ці завдання вирішує ABBYY FineReader все своє довге за мірками комп'ютерних програм життя — 12 років.
Секрет такого довголіття простий; у будь-якому офісі, у будь-якій установі постійно виникає необхідність зробити паперовий документ електронним, причому так, щоб можна було його редагувати. Навіть у найпростішому випадку, коли документ складається з лише тексту, без таблиць, ілюстрацій і фону, «набивання» на клавіатурі вимагає часу — приблизно 10–15 хвилин на кожну сторінку. І як би ви, провівши за подібною роботою день-другий, сприйняли пропозицію встановити програму, яка зробить те саме, але в 10–15 разів швидше?
Та й саму обробку можна багато в чому перекласти на "залізні плечі комп'ютера". Допустимо, потрібно розпізнати горезвісні сто п'ятдесят сторінок. Для цього потрібно сто п'ятдесят разів натиснути на кнопки Сканувати - Розпізнати - Зберегти. Або один раз запустити сценарій обробки документів і зайнятися чимось цікавішим, поки комп'ютер робить вашу роботу. «Навчить» його цьому, ясна річ, ABBYY FineReader 8.0, який дозволяє працювати автоматизовано. І тому складаються звані сценарії — послідовності типових операцій, виконання яких запускається одним натисканням кнопки. Передбаченокілька готових сценаріїв (на зразок нашого "Сканувати" - "Розпізнати" - "Зберегти"), можна створювати і свої власні.
Втім, для ефективної роботи з FineReader 8.0 не обов'язково вникати такі тонкощі, як складання сценаріїв. Як і раніше, технологія ABBYY під назвою Scan&Read дозволяє розпізнавати документи буквально натисканням однієї кнопки.
Як зробити краще?
Звичайно, певні правила обробки документів все ж таки існують. Перелічимо деякі з них.
Сканувати бажано з роздільною здатністю не менше 300 пікселів на дюйм. При роботі з книгами (особливо товстими) не варто користуватися CIS-сканерами: у цих тонких компактних апаратів невелика глибина різкості. Тому текст, що знаходиться поблизу розвороту (і тому не притиснутий до скла сканера), може бути розмитим до невпізнання. Звертайте увагу на мову, якою складено документ. Жодна система розпізнавання не здатна впоратися з текстом, якщо мова неправильна. Навіть незважаючи на те, що ABBYY FineReader «володіє» 179 мовами і вміє розпізнавати документи, складені кількома мовами.
Геть рутину!
ABBYY FineReader дозволяє позбавитися рутинної роботи. Будь-який машинописний або друкований документ буде введений у комп'ютер із повним збереженням оформлення документа (всі ілюстрації, таблиці, списки). Дуже корисним може виявитися вміння програми ABBYY FineReader відкривати PDF-файли і також переводити їх вміст у формат, що редагується.
Загалом, неважливо, звідки оригінал: надійшов поштою у вигляді PDF, отриманий зі сканера у вигляді зображення або знятий цифровим фотоапаратом. У будь-якому випадку, після обробки за допомогою ABBYY FineReader цей документ можна буде редагувати в програмах Microsoft Office, зберігати врізних форматах, відправляти електронною поштою або публікувати в Інтернеті. Одним словом, це буде вже повноцінна електронна версія оригіналу, що редагується.
Економія часу в порівнянні з ручним введенням виходить велика: приблизно 14 хвилин на сторінку. Іншими словами, опрацювавши згадану стостодесятисторінкову доповідь, ви заощадите приблизно 35 годин — понад чотири робочі дні, з понеділка по п'ятницю включно.
Робота зі сценаріями
Однак звичайне розпізнавання далеко не все, на що здатна програма ABBYY FineReader. Ця версія (найновіша на сьогоднішній день) може самостійно вирішувати проблеми, які раніше вимагали участі людини. Наприклад, FineReader визначає, отримане зображення зі сканера, цифрової камери або факсом, і автоматично вибирає оптимальний спосіб обробки. Якщо в документі немає кольорових картинок, можна сканувати у напівтоновому (сірому) режимі, інакше кращий кольоровий (24 біт) режим.
Якщо сканер та ABBYY FineReader з волі випадку знаходяться на різних комп'ютерах, ви можете відсканувати матеріали, зберегти їх у популярному графічному форматі та будь-яким зручним способом «доставити» на той ПК, який виконуватиме функції центру розпізнавання. Не слід зберігати файли у форматі JPEG з великим ступенем стиснення (компресії). Дрібні деталі зображення (до яких належать і всі літери тексту) при цьому будуть спотворені, і загальна якість розпізнавання зменшиться.
Фотоапарат плюс FineReader
Але що робити, якщо сканера немає? Тобто взагалі немає ніде у межах досяжності? Жодних проблем — скористайтеся цифровим фотоапаратом.
Це дуже зручно, адже цифровик набагато компактніший і легший, не потребує живлення від електричної мережі, та й працюєнабагато швидше за сканера. Звичайно, цифрові знімки в чомусь поступаються відсканованим зображенням. Наприклад, на фотографіях документів освітлення листа найчастіше нерівномірне, якісь області виходять яскравішими, інші темніші. Іноді, особливо під час зйомки з рук, страждає різкість. Фотоапарат, на відміну від сканера, позбавлений кришки, що притискає документ до оптичної системи, тому нерідко випадки викривлення рядків тексту в кадрі, особливо поблизу розвороту книги.
- Використовуйте цифрову камеру з роздільною здатністю не менше 4 мегапікселів. Дуже бажано, щоб він мав можливість відключення спалаху, ручне встановлення діафрагми або режим пріоритету діафрагми, ручне або автоматичне фокусування, функцію оптичної стабілізації та об'єктив зі змінною фокусною відстанню (зум-об'єктив).
- Перед зйомкою переконайтеся, що документ добре та рівномірно освітлений. Найкращі результати виходять за природного освітлення.
- Вимкніть спалах (у більшості аматорських цифровиків за замовчуванням встановлено автоматичний режим спалаху).
- Встановіть режим макрозйомки (Close-up або Macro). Зазвичай, цей режим позначається піктограмою у вигляді квітки.
- Розташуйте камеру паралельно площині документа, приблизно в центрі сторінки.
На карту пам'яті об'єму 128 Мбайт міститься близько сотні знімків у роздільній здатності, достатньому для впевненої роботи ABBYY FineReader 8.0. Враховуючи той факт, що при розпізнаванні одного документа (порівняно з ручним набором) ви заощаджуєте приблизно 14 хвилин, неважко підрахувати, що одна флешка, заповнена знімками для розпізнавання, звільняє вам 24 години. Добу, яку не довелося провести за комп'ютером. І які можна витратити на щось цікавіше! Наприклад, на зйомку навколишніхкраси — за допомогою того ж цифровика.
Нічого неможливого
Найбільш, мабуть, оригінальним нововведенням восьмої версії є ABBYY Screenshot Reader. Ця проста і зручна програма призначена для розпізнавання тексту з будь-якої області екрана комп'ютера. Screenshot Reader дозволить переводити в формат, що редагується, такі тексти, які не можна скопіювати звичайним способом (наприклад, тексти з інтернет-сторінок, створених за допомогою технології Flash). Як розпізнаний текст, так і знімок екрана можуть бути збережені як файл або передано в буфер обміну. Таким чином, за допомогою ABBYY Screenshot Reader можна:
Утиліта доступна зареєстрованим користувачам ABBYY FineReader 8.0. Робота з нею настільки проста, що не потребує навчання: досить просто вказати, який саме додаток слід передати розпізнаний текст.