BookReader - Як почистити скани книг і зробити книгу (KpNemo IvanStorogev)

IvanStorogev? KpNemo Як почистити скани книг і зробити книгу
Тут є 2 шляхи:

Після сканування книги її передбачається викладати в мережу (або зберігати на диску).
1) Можна розпізнати скани у програмі OCR, наприклад FineReader (FR).
Якщо якість оригіналу хороша, наприклад, роздруківка на лазернику з розміром шрифту 12pt, то FR чудово розпізнає її без будь-яких додаткових заходів. Але якщо розпізнавати потрібно стару книжку, на жовтому нерівному папері, брудну тощо. тут попереднє очищення різко підвищить якість розпізнавання, отже, набагато менше праці й часу піде на вичитування, тобто. ручне виправлення помилок. Треба сказати, що вбудовані в FR засоби очищення картинки досить примітивні, так що з поганими, зашумленими скана він справляється неважливо.
2) Можна зберігати нерозпізнаної, як растрової картинки, у тому чи іншому форматі: DJVU, PDF, TIFF.
Для очищення зображень застосовується багато різних методів і програм, часом вартістю тисячі і десятки тисяч доларів. Я опишу простий і доступний спосіб, особливо цінний тим, що руками доведеться працювати тільки з однією сторінкою книги, решту можна обробити автоматично, ґрунтуючись на збережених параметрах.
1-й етап: сканування
Сканувати книгу потрібно обов'язково в режимі grayscale (сірий). Зверніть увагу: сканувати в режимі b/w (чорно-білий) не можна! У режимі b/w подальша обробка буде неможлива.
Можна сканувати в true image (повноколір), але це сильно уповільнить обробку, збільшить обсяг файлів, а особливого виграшу не дасть. Виняток становлять випадки, коли на сторінках є кольорові плямибруду, тут робота з кольором може сильно допомогти.
Деякі сканери дозволяють вибрати один із колірних каналів (червоний, зелений, синій), який буде використовуватися при скануванні в сірий, є й інші налаштування та їх також можна покрутити. Але не захоплюйтеся, більшість фіч сканера просто обробка картинки драйвером. Те саме можна зробити у фотошопі, тільки куди краще.
Спробуйте різні варіанти, вибирати потрібно той, де зображення контрастніше, літери виглядають чіткішими. Якщо при цьому дрібних шумів (наприклад, фактура паперу) буде в розумних межах більше – це неважливо, приберемо потім.
Навпаки, якщо на папері є великі, розміром у 2-3 літери і більше, плями, то потрібно постаратися підібрати налаштування сканера так, щоб ці плями були блідими, порівняно з літерами, хай і менш контрастними, порівняно з іншими варіантами букв .
Простіше кажучи, налаштовуйте сканер так:
1) Якщо великих плям немає, то головне зробити чіткими букви, а шум особливо не дивитися.
2) Якщо великі плями є, то головне їх прибити, навіть якщо літери будуть не такі вже чіткі.
У тому й іншому випадку потрібно не переборщувати, керуючись досвідом та здоровим глуздом.
Якщо ви використовуєте для сканування FR, приберіть у опціях сканування «Очистити зображення», «Усунути перекручування рядків», «Ділити розвороти». Все це ви зробите потім, коли почистите скани та втягніть їх назад у FR. На цьому етапі будь-яка обробка зображення в FR тільки сповільнить сканування та погіршить чищення зображення у відповідних програмах.
Про вибір роздільної здатності скана.
Зазвичай книжки з текстом сканують із роздільною здатністю 300dpi. Це придатне значення для чистого тексту, пристойної якості поліграфії та не надто дрібногошрифту, коротше черговий бестселер типу: "Глухий проти Сліпого". Але в цьому випадку чистка зображення не потрібна. При зашумленому зображенні дрібному шрифті потрібно сканувати з роздільною здатністю 600dpi. Це полегшить очищення і якість остаточного файлу, якщо ви не розпізнаватимете книгу, а збережете у вигляді стисненого растру. Не турбуйтеся про величину кінцевого файлу. Добре почищена книга з роздільною здатністю 600dpi при стисканні в DJVU дає файл трохи більших розмірів, ніж з роздільною здатністю 300dpi.
Растрова форма зберігання книг особливо часто застосовується для книг із формулами. У цьому випадку сканування з роздільною здатністю 600dpi обов'язково, інакше важко буде розібрати індекси у формулах, відрізнити схожі літери, наприклад "омега" та w. Адже в математиці нерідко вкладені індекси (індекс індексу). Там при скануванні з роздільною здатністю 300dpi взагалі важко щось розібрати, тим паче роздрукувати. Ось дивіться:

Літери i та j на картинці зліва важко відрізнити один від одного. Адже це не скан, а друк у файл. При скануванні все буде набагато гірше - маленька крапка на папері і все, і 2 бали на іспиті!
Сканувати для наших цілей потрібно з роздільною здатністю 600dpi!
У крайньому випадку 400dpi.
Тепер потрібно вибрати зразкову сторінку для налаштування програм обробки, щоб інші обробити автоматично в пакетному режимі. Виберіть звичайну, типову сторінку, може бути трохи бруднішу, ніж у середньому.
Перегляньте всі відскановані сторінки книги, можливо деякі потрібно пересканувати.
Всі сильно забруднені, спотворені, з дрібнішим шрифтом, ніж інші, з дуже великими плямами, з малюнками на всю або майже всю сторінку тощо. відразу покладіть в окрему папку. Їх простіше обробити окремо,однієї. Зазвичай таких небагато.
Далі приступимо до обробки сканів послідовно у програмі NeatImagePro+, потім у PhotoShop'і. Почнемо із першої.
Нам знадобиться програма NeatImagePro+ (NI+), має безліч унікальних можливостей, наприклад з її допомогою можна робити чудові "гламурні" картинки оголеної натури. Ось її веб-сайт: neatimage.com. Але нам туди не треба, там її вільно не роздають. На щастя, у Вас є я, а у нас усіх Рапідшара:
Neat Image Pro+ Edition v5.0.5.0
Це не остання версія, зате з ліками і цілком робоча.
NI+ працює таким чином: виділяється характерна ділянка картинки з шумом, але без корисного зображення. Програма ця ділянка оцінює і "віднімає" шум з усієї картинки.
Я зашкандибав "віднімає" тому, що насправді не "віднімає", а множить, і не картинку на шум, а їх двомірні спектральні уявлення. Та й не множить, якщо у шкільному значенні… Але ми в ці нетрі не полезем:-).
Головне вікно програми організовано у вигляді вкладок:
1) Вкладка: Input Image
Про те, як завантажити файл у програму, я розповідати не буду, зауважу лише, що NI+ не бажає відкривати 8-бітний TIFF, якщо він збережений, наприклад, з PhotoShop'а як індексований 8-бітний з палітрою, але нормально відкриває, якщо TIFF зберегти як grayscale.
2) Вкладка: Device Noise Profile
На цьому етапі ми маємо вибрати ділянку скана, де немає букв та малюнків, але є характерні шуми. Зверніть увагу: темні смуги біля корінця або на краях теж не повинні потрапити до нашого вибору. На виділену ділянку вказує стрілка на Рис. 1:

Після того, як ми виділимо відповідну ділянку, треба натиснути на кнопку "Rough NoiseAnalyzer" на лівій панелі, на Рис.1 підсвіченажовтий. Деякий час спостерігаємо за синьою смужкою… і на лівій панелі під згаданою кнопкою з'являться додаткові налаштування (Мал. 2).

Найпростіше натиснути на кнопку "Auto fine-tune" (підсвічена жовтим), і перейти до вкладки 3:
3) Вкладка: Noise Filter Settings
Тут ми налаштуємо фільтр так, щоб зробити максимально чіткими букви та вбити шуми. Перед налаштуванням фільтра потрібно виділити ділянку відповідну ділянку з корисним зображенням та збільшити її на весь екран. При виборі ділянки слід керуватися такими міркуваннями:
1) Брати потрібно, по можливості, максимально зашумлену ділянку;
2) Одночасно ця ділянка повинна з найдрібнішими деталями корисного зображення, наприклад з дрібним шрифтом.
Оскільки ми обробляємо не фотографію коти, а текст, то природність зображення нас не хвилює. Головне, щоб літери були поважнішими, а шуму меншими. Тому сміливо рухаємо двигуни на лівій половині панелі і дивимося, що виходить. Звертайте увагу на дрібні деталі літер: хвостики, наприклад, порівнюйте "C" і "G"; внутрішні ділянки літер, наприклад, у верхній частині рядкової "е".
Описувати дію кожного двигуна я не буду, простіше пробувати і дивитися.

На зображенні (Рис. 3) зображено результат обробки, а положення двигунів і чекбоксів можна взяти за точку відліку при власних експериментах. В основному грайте двигунами в "Noise reduction Amounts", особливо двигун "Y"; "Sharpening Settings". Ці ділянки лівої панелі малюнку підсвічені жовтим. Коли результат вам сподобається, посуньте прямокутник Preview по всьому зображенню, щоб прикинути, як воно виглядатиме в різних місцях. Якщо все добре, збережіть отриманий профіль фільтрації, він буде використаний дляпакетної обробки решти сторінок.
4) Вкладка: Output Image
Тут ви можете натиснути на Apply та подивитися, що вийшло. А якщо ви впевнені, що налаштували NI+ добре, то одразу переходьте до пакетної обробки решти сторінок. Просто натисніть Esc і ви потрапите у вікно пакетного обробника.
5) Вікно пакетного оброблювача
File -› Bath, додаєте потрібні сторінки (не забудьте у "Filter Presets" позначити "Use specified preset" і вибрати збережений раніше, при налаштуванні по зразковій сторінці пресет. Нарешті можна запустити процес обробки. Він довгий, тому запустіть його на ніч, або , Навпаки, з ранку, перед відходом на роботу.