Створення електронних архівів підприємств
Олексій Риндін Consistent Software SPb[email protected]
Загальна концепція побудови електронного архіву
І так, Ви вирішили автоматизувати інженерно-конструкторський документообіг, щоб позбавитися рутинної ручної роботи з величезною кількістю паперової документації. Створення електронних архівів (ЕА) є в кожному випадку унікальним завданням для будь-якого підприємства з одного боку, але має загальні закономірності, з іншого боку, що дозволяють виробляти їхню поблочну реалізацію та поетапно отримати закінчене програмно-апаратне рішення. При цьому важливо, що результатом кожного етапу є закінчене рішення, готове до використання до проведення робіт по наступних етапах. Структура ЕА зображена на рисунку і складається з наступних підсистем:
підсистеми сканування комплексу програмно-апаратних засобів для перетворення паперової документації в електронний вигляд; підсистеми оперативного електронного архіву для зберігання інформації оперативного використання та накопичення інформації перед записом її на довготривале зберігання; підсистеми довгострокового зберігання для довготривалого зберігання великих і надвеликих обсягів даних, звернення до яких носить нерегулярний характер; пользовательских додатків. Як правило, на цьому рівні організується доступ до інформації архіву або у файл-серверному режимі, або за допомогою систем автоматизації, СУБД; підсистеми тиражування; ¦технологічних рішень.
Проблема створення ЕА підприємств наразі є дуже актуальною. Основна причина необхідності її вирішення полягає у наявності великої кількості паперової документації, що поступово приходить у непридатність, низької ефективності ручної роботи з документацією з одного боку, та наявності вжевпроваджених на підприємствах САПР, існування необхідних програмно-апаратних засобів для створення ЕА, з іншого боку. Створення закінченої системи документообігу конструкторської документації веде, передусім, підвищення ефективності роботи підприємства, і, як наслідок, до зростання прибутку. Розглянемо створення кожної з перерахованих вище підсистем ЕА.
Створення підсистеми сканування
Створення підсистеми слід розпочати, передусім, із вивчення паперового архіву підприємства. Як правило, архів будь-якого підприємства складається із десятків тисяч і навіть мільйонів документів. Усі документи мають різні формати, стан, щільність та товщину паперу. Частиною документів можуть бути синьки, кальки. Часто зустрічаються документи на кольорових та сірих паперах. Документи можуть бути у вигляді окремих аркушів та зброшуровані у книги та альбоми. На будь-якому підприємстві обов'язково знайдеться частина документації, збереження та стан якої залишають бажати кращого старі та вицвілі документи. Тому правильно було б розпочати процес створення ЕА з визначення обсягів документації, які необхідно помістити в ЕА. При цьому для правильного підбору обладнання необхідно зробити ретельне вивчення документів за такими параметрами:
кількість документів по кожному з форматів; (2) наявність та кількість зшитих документів по кожному з форматів; ¦ наявність та кількість старих документів по кожному з форматів; (2) наявність та кількість документів на папері низької щільності по кожному з форматів; ¦ наявність та кількість документів на кольоровому та сірому папері по кожному з форматів; ¦ наявність двосторонніх документів за кожним із форматів.
Звичайно, неможливо зробити абсолютно точний підрахунок, але слід пам'ятати, що точніше буде проведенообстеження архіву, тим точніше буде підібрано обладнання, і ефективніше створюватиметься ЕА.
Далі необхідно визначити терміни створення архіву та інтенсивність його поповнення новими документами. Дуже важливо визначити, які формати файлів мають мати електронні документи.
Наявність формалізованої певним чином інформації дозволяє визначити відповідне обладнання. Так, для сканування великих обсягів вузькоформатної (до формату А3) незшитої документації застосовуються потокові сканери (наприклад, Inotex Scamax), що дозволяють сканувати зі швидкістю до 90 аркушів/хв (Scamax2600) або до 180 аркушів/хв (Scamax5000) у режимі авто. Сканери цього модельного ряду також мають режим ручної подачі. Так наприклад, при наявності в пачках сканованої документації деякої кількості документів на папері низької щільності, старих, які сканер не може простягати із зазначеними швидкостями, оператор сканування може на якийсь час переключитися в режим ручної подачі для сканування таких документів, і назад в режим автоматичної подачі, не перериваючи процес сканування пачки.
Формати файлів, що отримуються: *.tif монохромний односторінковий, двосторінковий; *.pdf. Особливістю даних сканерів і ПЗ є наявність безлічі додаткових функцій, наприклад: двостороннє сканування; апаратні модулі динамічного контрасту, що дозволяють отримати високоякісні зображення з неконтрастних, сірих та кольорових оригіналів, робота зі штрих-кодами, наддрук на документах, отримання зображень gray scale та інші. Для підприємств, що планують менш інтенсивні темпи створення архівів та менші обсяги незшитої вузькоформатної документації форматів до А3, використання сканерів Scamax не завжди є доцільним та економічно невиправдовується. У цьому випадку можливе використання потокових сканерів виробництва компанії Fujitsu, що мають залежно від моделі продуктивність 15-90 аркушів/хв. Формат файлів *.tif монохром, gray scale, кольоровий. Відмінною особливістю сканерів Fujitsu є одночасна можливість потокового та планшетного сканування. За наявності невеликого відсотка документації, яка не може бути протягнута механізмом потокового сканування, окремі старі аркуші та аркуші на папері низької щільності можна відсканувати на планшеті сканера. Сканери Fujitsu містять додаткові програмні та апаратні модулі, орієнтовані виконання різних операцій. Особливо можна відзначити модуль обробки зображень ICP, що дозволяє різко підняти якість зображень, отриманих під час сканування неконтрастних, неякісних документів.
Для сканування пошитої вузькоформатної (до формату А3) документації можна використовувати безконтактні книжкові сканери Bookeye, Minolta. Їх особливість - відсутність механічного контакту зі сканованими матеріалами. Камера, що сканує, розташована над столом, на якому розташовуються пошиті документи. Час сканування розвороту 3-5 секунд. Формат файлу *.tif, що отримується, монохромний і gray scale. Сканер і ПЗ управління мають опції, необхідні для роботи зі зшитими документами, коригування вигину сторінок і ряд додаткових функцій, що дозволяють найбільш зручно поставити технологію сканування, наприклад, робота зі штрихкодами. За наявності товстих книг та пачок зшитої документації доцільно застосовувати спеціальні додаткові підставки. Оператор перегортає сторінки вручну. Запуск процесу сканування може здійснюватися за допомогою педалі, пульта керування сканером або безпосередньо з програми. Дані сканери можутьуспішно застосовуватися і для сканування окремих вузькоформатних листів, що мають старий стан. Якщо підприємству не потрібно сканувати вузькоформатну брошуровану документацію, але є невеликі обсяги старих вузькоформатних документів, то використання безконтактних сканерів у цьому випадку є недоцільним. Для цього цілком підходить простий планшетний сканер або планшет потокового сканера Fujitsu.
Для сканування широкоформатної документації можна використовувати широкоформатні сканери компаній Contex Scanning Technologies та Vidar Systems. Вони призначені для переведення в електронний вид документації широких форматів (понад А3 і А0) без обмеження по довжині сканованого листа. У сканерах апаратно реалізовано алгоритми цифрової обробки зображень. Наприклад, у сканерах Contex оператор керує лише вибором алгоритмів або їх параметрами, але сам процес обробки результату сканування зашитий у пристрій і відбувається в режимі реального часу. Для отримання кращих результатів використано: механізм незалежного покращення деталей переднього плану та фону (Dual 2D-Adaptive Enhancement); виділення напівтонів для якісного копіювання (ADL+ Error Diffusion Halftoning); динамічне виставлення порога сканування (2D-Adaptive Thresholding); фільтри підвищення різкості (2D-Sharpening), згладжування (2D-Softening) та розмиття (2D-Blur) напівтонового та кольорового зображень; виділення деталей зображення за колірними ознаками (Color Feature Extraction), приведення палітри кольорів до заданих кольорів (8біт). Для різних типів оригінальних зображень використовують різні набори алгоритмів. Найчастіше якість відсканованого зображення перевершує якість оригіналу, наприклад, при скануванні синяків або вицвілих оригіналів. Сканери Vidar та Contex мають прямий тракт протягування.з рівномірно розташованими роликами, що дозволяє успішно сканувати стару документацію та кальки. Обидва модельні ряди мають можливість монохромного, gray scale та кольорового сканування. Конкретні моделі відрізняються також і за продуктивністю.
При побудові підсистеми сканування ЕА пропонується обладнання репрографічних комплексів OSE TDS400, TDS600, TDS800. До складу комплексу входять сканер, плоттер і контролер, що є сполучною ланкою між ними. Формати файлів, що підтримуються: HP-GL, HP-GL2, Calcomp, Tiff і Cals використовуються в більшості CAD- та EDMS-систем. Опціонально передбачено підтримку Adobe PostScript3, що включає прямий друк PDF-форматів. PDF найбільш поширений формат для більшості офісних додатків, що все частіше застосовується для обміну даними в Інтернеті та архівного зберігання. Крім того, TDS400 підтримує формат ASCII. Швидкість сканування TDS400 3 метри/хв, TDS600 5 метрів/хв, TDS800 10 метрів/хв. Сканери призначені для сканування документації до формату А0. Довжина оригіналів може досягати 15 метрів та визначається автоматично.
Підібрати те чи інше обладнання, як зазначалося вище, можна лише після обстеження паперового архіву підприємства та виконання вимог, що висуваються до ЕА. Обов'язковою для створення підсистеми сканування є розробка самої технології сканування, унікальної, як правило, у кожному окремому випадку та відповідно підібраної технології програмного забезпечення обробки сканованих зображень. При підборі обладнання часто виникають помилки, пов'язані з тим, що не враховується технологія проведення робіт. Так, наприклад, потоковий сканер A3 формату Scamax 2600 має продуктивність 90 аркушів на хвилину. Але це зовсім не означає, що через 8 годин роботи буде відскановано8х60х90 = 43200 документів. Насправді, продуктивність цієї моделі в середньому 10000-20000 відсканованих документів на день. Точна цифра залежить від якості документів, технології роботи. Якщо на паперових документах зображення низької якості, доводиться включати додаткові опції автоматичної обробки зображень у програмному управлінні сканером, які уповільнюють процес сканування. Якщо при поточному скануванні в пачках зустрічаються документи на папері низької якості, оператор сканування буде змушений періодично переходити з режиму автоподачі в режим ручної подачі, що також зменшує продуктивність сканера. Розробка технології процедур сканування є серйозним завданням і потребує певного досвіду та знання всіх, у тому числі і додаткових, можливостей обладнання та ПЗ (робота зі штрихкодами, опції ПЗ, що коригують, додаткові блоки та апаратні модулі). Велика ймовірність того, що буде потрібна додаткова обробка файлів, наприклад усунення перекосів, вирізання зображень за форматом, пакетне видалення повторюваних і непотрібних частин зображень (наприклад, зображень перфорації на специфікаціях). Причини цього:
стан оригіналів (забруднені, вицвілі, на кольорових і сірих паперах), що викликає появу нечітких, неконтрастних зображень низької якості; Наявність оригіналів нестандартних розмірів. Наприклад, якщо оригінал на міліметри ширший за формат А1, то при тиражуванні друкувальний пристрій може сприйняти його як документ формату А0, хоча подані на друк зайві міліметри не несуть жодної інформації; Наявність повторюваних фрагментів зображень, що не несуть інформації, але роблять розмір файлу більше. Наприклад, зображення перфорації на краях специфікацій; Можливість перекосівзображення, пов'язані з перекосом ветхого документа в протяжному тракті потокового сканера.
Внаслідок цих причин частина зображень може бути незадовільною якістю. Частина з перерахованих недоліків можна усунути в процесі сканування за допомогою стандартних апаратних або програмних опцій. Як правило, скануюче обладнання та ПЗ мають ряд додаткових апаратних та програмних блоків, що купуються окремо, які допоможуть впоратися з наявною проблемою. Однак деякі з наведених вище недоліків зображень неможливо усунути в процесі сканування за допомогою додаткових апаратних блоків та опцій ПЗ. У цьому випадку потрібна додаткова обробка зображень. Правильно було б прагнути максимально виключити ручну обробку та використовувати додаткове програмне забезпечення пакетної обробки, яке автоматично усуває недоліки отриманих зображень. Завжди варто пам'ятати, що в архіві підприємства знайдеться частина документів, електронні копії яких можна відредагувати лише вручну. Пакетна обробка неприйнятна для файлів, недоліки зображень у яких немає жодних закономірностей і не зустрічаються в інших файлах. У цих випадках, як правило, передбачається використання додаткового ПЗ. Тому під час розробки підсистеми сканування ЕА передбачається використання додаткових програмних пакетів, наприклад SPOTLIGHT PRO V4 виробництва компанії Consistent Software, що виконує функції обробки растрів, дигітайзування, трасування, векторизації, гібридної обробки.