Системи автоматичного розпізнавання форм, Комп’ютерПрес

Людство постійно виборює зниження частки ручного труда. Можна сказати, що в області офісної автоматизації воно досягло особливого прогресу.

Але одна справа розробити технологію, а інша повсюдно її впровадити. Яскравим прикладом тут є система автоматичного розпізнавання форм — технологія, яка дозволяє перекласти монотонну багатогодинну працю друкарки на комп'ютерне обладнання.

Сутність системи розпізнавання форм (заході використовують термін Document Capturing — «захоплення документа») зводиться до розпізнавання документа певного формату у випадку з друкованим чи рукопечатным заповненням. Завдання розпізнавання полягає у знаходженні деяких відомих полів, а результатом роботи програми зазвичай не просто текстовий документ, а певна запис у деякій базі даних. Завдання дуже нагальна і виникає практично скрізь, де людина стикається з необхідністю автоматизованої комп'ютерної обробки однотипних документів. У загальному наближенні ринок Document Capturing (тільки його програмна частина) у світі оцінюється приблизно 300 млн. дол., у своїй досить швидко розвиваючись. Великих успіхів у цьому напрямі досягли українські компанії. Слід зазначити, що у галузі систем розпізнавання (які можна зарахувати до систем штучного інтелекту) ми маємо дуже сильна вітчизняна школа.

Однак часом непоінформованість начальства та неефективна організація роботи призводять до того, що по-старому в комп'ютер вручну вбиваються тисячі однотипних друкованих і рукодрукних форм. Обсяги подібної праці справді величезні. У країні функціонують сотні організацій, що працюють із фізичними та юридичними особами, які у своїй повсякденній діяльностіобробляють незліченні потоки документів: платіжні доручення, анкети, декларації, квитанції тощо.

Сумарна кількість документів, які мають бути занесені до бази даних для подальшої обробки лише в одній організації, може сягати кількох тисяч і навіть десятків тисяч на день. Можна собі уявити, в якому масштабі такі роботи виробляються загалом країною. На це витрачаються величезні кошти, тоді як проблему можна вирішити набагато ефективніше.

«ABBYY FineReader Рукопис»

Система «ABBYY FineReader Рукопис» призначена для offline-розпізнавання 1 рукодрукних та друкованих форм різного типу, включаючи навіть ті форми, які не були призначені для машинної обробки.

Система має можливість розпізнавання друкованих текстів 50 мовами та рукодрукних текстів шістьма мовами. Завдяки різним методам видалення зображення форми крім традиційних кольорових і растрових форм FineReader Рукопис може розпізнавати інформацію і з чорно-білих форм з різними типами розмітки полів.

Програма дозволяє здійснювати введення форм різного ступеня складності, включаючи багатосторінкові форми. Масштабованість системи робить її придатною для введення практично будь-яких обсягів інформації - від найпростіших систем для введення сотень документів на день і до комплексів із десятків комп'ютерів для введення сотень тисяч документів щодня.

Завдяки технології FlexiForm, реалізованої в FineReader Рукопис, можлива обробка навіть не машиночитаемых - так званих гнучких - форм.

Під завданням введення гнучких форм (FlexiForms) розуміють завдання введення однакових форм, надрукованих на строго однотипних бланках. Наприклад, це можуть бути документи, роздруковані на різних принтерах, у різнихорганізаціях, тобто однотипна інформація у яких розташована по-різному.

Технологія FlexiForm знайшла своє застосування у багатьох різних системах із введення документів, включаючи українські платіжні доручення; польські рукописні банківські чеки; міжнародні картки VISA; українські платіжні доручення; литовські бібліотечні картки; міжбанківські перекази в Бельгії та багато інших.

У тих випадках, коли форма не містить виправлень та заповнена акуратно, програма розпізнає рукописні символи, допускаючи менше п'яти помилок на 1000 символів, що більш ніж у п'ять разів менше, ніж робить професійна друкарка.

Підвищена точність пояснюється автоматичним контролем результатів розпізнавання на основі перевірок за словниками та базами даних. Програма автоматично перевіряє коректність результатів розпізнавання за базами даних, словниками, за допомогою перехресних перевірок полів, перевірок сум, форматів дат тощо. Відкритий інтерфейс дозволяє користувачеві створювати власні правила автоматичного контролю.

На основі FineReader API 2 можна налаштовувати інтерфейс системи, запускати програму з інших програм та легко інтегрувати її в будь-яку іншу систему обробки інформації.

Використовуючи FineReader Developer Edition, можна писати свої програми на основі програми FineReader Рукопис.

FineReader розпізнає форми, заповнені від руки, на друкарській машинці або принтері, а також пункти (checkmarks) та штрих-коди. Після розпізнавання FineReader виділяє кольором усі невпевнено розпізнані символи та подає їх на верифікацію. Оператор витрачає лише секунди, перевіряючи окремі символи, замість витрачати хвилини на повне введення всієї форми.

Система Cognitive Forms

Система Cognitive Forms належить докласу OCR/ICR/OMR (Optical Charachter Recognition/Intelligent Character Recognition/Optical Mark Recognition 3 ) та дозволяє здійснювати потокове введення стандартних форм з друкованим, рукописним заповненням та відмітками (checkbox) у комп'ютерні БД та корпоративні інформаційні системи.

У системі Cognitive Forms реалізовано так звану трирівневу технологію розпізнавання:

1. Розпізнавання окремого символу. Тут застосовується комбінація кількох методів розпізнавання (композитивний метод):

нейротехнології;
структурний метод (скелетон);
деревоподібне розпізнавання;
метод, що базується на кластерному аналізі (подійне розпізнавання 4).

Крім того, є алгоритми, які дозволяють працювати з текстами низької якості. Так, для розрізання «склеєних» символів існує алгоритм оцінки оптимальних розбиття (технологія FustCut та її вдосконалений варіант PowerCut). Навпаки, для з'єднання "розсипаних" елементів існує алгоритм їхнього з'єднання.

2. Розпізнавання поля знаків (методи розпізнавання базуються на варіанті 1 та методах динамічного програмування).

3. Лінгвістична підтримка. Включає словникову обробку, мікролінгвістику і частотний словник. Цей рівень необхідний підвищення точності розпізнавання. Частина полів бланка підтримується спеціальними словниками. Наприклад, результат розпізнавання поля «ім'я» може бути скоригований за допомогою словника імен, у цифровому полі не може з'явитися буква, і навпаки.

Розроблений Cognitive Technologies частотний словник має можливість коригувати помилки завдяки статистиці оцінок ймовірності появи сусідніх символів. Інакше кажучи, ймовірність появи «ъ» післяголосної літери дорівнює нулю.

Таким чином, на першому етапі система розпізнає структуру документа (лінії розграфки та текст), потім аналізує розташування його полів (символи, сукупності символів) і, нарешті, проводить лінгвістичну обробку результатів розпізнавання.

Якщо форма займає кілька сторінок, з успіхом застосовуються так звані самонавчені, або адаптивні, методи розпізнавання. Принцип їхньої роботи полягає в наступному. У кожному тексті є чітко і нечітко прописані символи. Після того, як система розпізнала текст (як це робить звичайна OCR-система) і отримала точність менше порогової, здійснюється розпізнавання тексту на основі шрифту, який самогенерується системою за добре продрукованими символами. У цьому підході розробники поєднали переваги двох типів систем розпізнавання: omnifont та multifont. Перші дозволяють розпізнавати будь-які шрифти без додаткового навчання, а другі більш стійкі при розпізнаванні низькоякісних текстів. Використання алгоритмів, що самонавчаються, дозволяє підняти точність розпізнавання низькоякісних текстів у чотири-п'ять разів. Але головне, мабуть, у тому, що у систем самонавчання більший потенціал підвищення точності розпізнавання.

Варто зазначити, що технологія Cognitive Forms не належить до класу так званих коробочних продуктів. Кожна її інсталяція супроводжується адаптацією відповідно до вимог замовника. Введення цієї процедури дозволяє отримати необхідну якість розпізнавання.

Процес роботи з Cognitive Forms здійснюється в такий спосіб. Оператор на станції сканування поміщає пачку документів у пристрій автоматичної подачі сканера (як правило, це високопродуктивний сканер Kodak, Banctech,Bell+Howell, Hewlett-Packard, Fujitsu). Після натискання кнопки запускається процес потокового сканування документів.

Підсистема розпізнавання Cognitive FormReader в автоматичному режимі управляє розпізнаванням і контекстною перевіркою правильності розпізнавання.

На станції візуального контролю (модуль редагування Cognitive FormEditor) оператор має можливість візуально контролювати та редагувати розпізнані поля форм перед експортом до бази даних.

У підсистемі створення опису форм (Cognitive FormDesigner) створюється комп'ютерне опис оброблюваних форм, використовуване всіх етапах процесу введення — від розпізнавання до експорту до бази даних.

Підсистема експорту результатів формує текстове подання документа перед його записом до бази даних, з остаточною перевіркою на допустимість значень даних, що експортуються. Реєстрація запису здійснюється користувачем після введення та перевірки певної кількості документів.

Підсистема експорту до бази даних дозволяє експортувати розпізнані документи через ODBC до SQL-серверів, зберігати результати розпізнавання у форматах DBF, XLS, CSV, TXT, RTF, DOC тощо.

Одним із важливих елементів Cognitive Forms є система контролю за правильністю введення інформації. Її основна функція полягає в тому, щоб точність розпізнавання на виході становила 100%, забезпечуючи при цьому мінімальний ступінь стомлюваності оператора. Система контролю правильності введення документів розроблена з урахуванням вимог ергономіки та підвищення продуктивності праці. Контролю з боку людини підлягають ті дані, які задовольняють вимогам правильності розпізнавання.

Масове введення платіжних доручень

Оперативність введення платіжних доручень (ПП)у багато разів збільшує обсяг інформації, що обробляється банком, і значною мірою зменшує кількість помилок, що неминуче допускаються при традиційному способі введення ПП.

Ефективне введення ПП клієнтів банку до автоматизованої банківської системи забезпечує система автоматизації обробки платіжних доручень — окремий випадок Cognitive Forms (CF:ВПП).

Важливо, що CF:ВПП автоматизує як введення документа (його переведення з паперового в електронний формат), а й увесь процес до операції проведення платежу. Система передбачає такі етапи обробки платіжних доручень:

введення (сканування заповненої форми довільного форматування);
перевірка (проводиться розпізнавання документа та його автоматична верифікація);
відправка на виконання (експорт документа до автоматизованої банківської системи у потрібному форматі).