BookReader - Як почистити скани книг і зробити книгу (KpNemo IvanStorogev)

IvanStorogev? KpNemo Як почистити скани книг і зробити книгу

Тут є 2 шляхи:

Після сканування книги її передбачається викладати в мережу (або зберігати на диску).

1) Можна розпізнати скани у програмі OCR, наприклад FineReader (FR).

Якщо якість оригіналу хороша, наприклад, роздруківка на лазернику з розміром шрифту 12pt, то FR чудово розпізнає її без будь-яких додаткових заходів. Але якщо розпізнавати потрібно стару книжку, на жовтому нерівному папері, брудну тощо. тут попереднє очищення різко підвищить якість розпізнавання, отже, набагато менше праці й часу піде на вичитування, тобто. ручне виправлення помилок. Треба сказати, що вбудовані в FR засоби очищення картинки досить примітивні, так що з поганими, зашумленими скана він справляється неважливо.

2) Можна зберігати нерозпізнаної, як растрової картинки, у тому чи іншому форматі: DJVU, PDF, TIFF.

Для очищення зображень застосовується багато різних методів і програм, часом вартістю тисячі і десятки тисяч доларів. Я опишу простий і доступний спосіб, особливо цінний тим, що руками доведеться працювати тільки з однією сторінкою книги, решту можна обробити автоматично, ґрунтуючись на збережених параметрах.

1-й етап: сканування

Сканувати книгу потрібно обов'язково в режимі grayscale (сірий). Зверніть увагу: сканувати в режимі b/w (чорно-білий) не можна! У режимі b/w подальша обробка буде неможлива.

Можна сканувати в true image (повноколір), але це сильно уповільнить обробку, збільшить обсяг файлів, а особливого виграшу не дасть. Виняток становлять випадки, коли на сторінках є кольорові плямибруду, тут робота з кольором може сильно допомогти.

Деякі сканери дозволяють вибрати один із колірних каналів (червоний, зелений, синій), який буде використовуватися при скануванні в сірий, є й інші налаштування та їх також можна покрутити. Але не захоплюйтеся, більшість фіч сканера просто обробка картинки драйвером. Те саме можна зробити у фотошопі, тільки куди краще.

Спробуйте різні варіанти, вибирати потрібно той, де зображення контрастніше, літери виглядають чіткішими. Якщо при цьому дрібних шумів (наприклад, фактура паперу) буде в розумних межах більше – це неважливо, приберемо потім.

Навпаки, якщо на папері є великі, розміром у 2-3 літери і більше, плями, то потрібно постаратися підібрати налаштування сканера так, щоб ці плями були блідими, порівняно з літерами, хай і менш контрастними, порівняно з іншими варіантами букв .

Простіше кажучи, налаштовуйте сканер так:

1) Якщо великих плям немає, то головне зробити чіткими букви, а шум особливо не дивитися.

2) Якщо великі плями є, то головне їх прибити, навіть якщо літери будуть не такі вже чіткі.

У тому й іншому випадку потрібно не переборщувати, керуючись досвідом та здоровим глуздом.

Якщо ви використовуєте для сканування FR, приберіть у опціях сканування «Очистити зображення», «Усунути перекручування рядків», «Ділити розвороти». Все це ви зробите потім, коли почистите скани та втягніть їх назад у FR. На цьому етапі будь-яка обробка зображення в FR тільки сповільнить сканування та погіршить чищення зображення у відповідних програмах.

Про вибір роздільної здатності скана.

Зазвичай книжки з текстом сканують із роздільною здатністю 300dpi. Це придатне значення для чистого тексту, пристойної якості поліграфії та не надто дрібногошрифту, коротше черговий бестселер типу: "Глухий проти Сліпого". Але в цьому випадку чистка зображення не потрібна. При зашумленому зображенні дрібному шрифті потрібно сканувати з роздільною здатністю 600dpi. Це полегшить очищення і якість остаточного файлу, якщо ви не розпізнаватимете книгу, а збережете у вигляді стисненого растру. Не турбуйтеся про величину кінцевого файлу. Добре почищена книга з роздільною здатністю 600dpi при стисканні в DJVU дає файл трохи більших розмірів, ніж з роздільною здатністю 300dpi.

Растрова форма зберігання книг особливо часто застосовується для книг із формулами. У цьому випадку сканування з роздільною здатністю 600dpi обов'язково, інакше важко буде розібрати індекси у формулах, відрізнити схожі літери, наприклад "омега" та w. Адже в математиці нерідко вкладені індекси (індекс індексу). Там при скануванні з роздільною здатністю 300dpi взагалі важко щось розібрати, тим паче роздрукувати. Ось дивіться:

Літери i та j на картинці зліва важко відрізнити один від одного. Адже це не скан, а друк у файл. При скануванні все буде набагато гірше - маленька крапка на папері і все, і 2 бали на іспиті!

Сканувати для наших цілей потрібно з роздільною здатністю 600dpi!

У крайньому випадку 400dpi.

Тепер потрібно вибрати зразкову сторінку для налаштування програм обробки, щоб інші обробити автоматично в пакетному режимі. Виберіть звичайну, типову сторінку, може бути трохи бруднішу, ніж у середньому.

Перегляньте всі відскановані сторінки книги, можливо деякі потрібно пересканувати.

Всі сильно забруднені, спотворені, з дрібнішим шрифтом, ніж інші, з дуже великими плямами, з малюнками на всю або майже всю сторінку тощо. відразу покладіть в окрему папку. Їх простіше обробити окремо,однієї. Зазвичай таких небагато.

Далі приступимо до обробки сканів послідовно у програмі NeatImagePro+, потім у PhotoShop'і. Почнемо із першої.

Нам знадобиться програма NeatImagePro+ (NI+), має безліч унікальних можливостей, наприклад з її допомогою можна робити чудові "гламурні" картинки оголеної натури. Ось її веб-сайт: neatimage.com. Але нам туди не треба, там її вільно не роздають. На щастя, у Вас є я, а у нас усіх Рапідшара:

Neat Image Pro+ Edition v5.0.5.0

Це не остання версія, зате з ліками і цілком робоча.

NI+ працює таким чином: виділяється характерна ділянка картинки з шумом, але без корисного зображення. Програма ця ділянка оцінює і "віднімає" шум з усієї картинки.

Я зашкандибав "віднімає" тому, що насправді не "віднімає", а множить, і не картинку на шум, а їх двомірні спектральні уявлення. Та й не множить, якщо у шкільному значенні… Але ми в ці нетрі не полезем:-).

Головне вікно програми організовано у вигляді вкладок:

1) Вкладка: Input Image

Про те, як завантажити файл у програму, я розповідати не буду, зауважу лише, що NI+ не бажає відкривати 8-бітний TIFF, якщо він збережений, наприклад, з PhotoShop'а як індексований 8-бітний з палітрою, але нормально відкриває, якщо TIFF зберегти як grayscale.

2) Вкладка: Device Noise Profile

На цьому етапі ми маємо вибрати ділянку скана, де немає букв та малюнків, але є характерні шуми. Зверніть увагу: темні смуги біля корінця або на краях теж не повинні потрапити до нашого вибору. На виділену ділянку вказує стрілка на Рис. 1:

Після того, як ми виділимо відповідну ділянку, треба натиснути на кнопку "Rough NoiseAnalyzer" на лівій панелі, на Рис.1 підсвіченажовтий. Деякий час спостерігаємо за синьою смужкою… і на лівій панелі під згаданою кнопкою з'являться додаткові налаштування (Мал. 2).

Найпростіше натиснути на кнопку "Auto fine-tune" (підсвічена жовтим), і перейти до вкладки 3:

3) Вкладка: Noise Filter Settings

Тут ми налаштуємо фільтр так, щоб зробити максимально чіткими букви та вбити шуми. Перед налаштуванням фільтра потрібно виділити ділянку відповідну ділянку з корисним зображенням та збільшити її на весь екран. При виборі ділянки слід керуватися такими міркуваннями:

1) Брати потрібно, по можливості, максимально зашумлену ділянку;

2) Одночасно ця ділянка повинна з найдрібнішими деталями корисного зображення, наприклад з дрібним шрифтом.

Оскільки ми обробляємо не фотографію коти, а текст, то природність зображення нас не хвилює. Головне, щоб літери були поважнішими, а шуму меншими. Тому сміливо рухаємо двигуни на лівій половині панелі і дивимося, що виходить. Звертайте увагу на дрібні деталі літер: хвостики, наприклад, порівнюйте "C" і "G"; внутрішні ділянки літер, наприклад, у верхній частині рядкової "е".

Описувати дію кожного двигуна я не буду, простіше пробувати і дивитися.

На зображенні (Рис. 3) зображено результат обробки, а положення двигунів і чекбоксів можна взяти за точку відліку при власних експериментах. В основному грайте двигунами в "Noise reduction Amounts", особливо двигун "Y"; "Sharpening Settings". Ці ділянки лівої панелі малюнку підсвічені жовтим. Коли результат вам сподобається, посуньте прямокутник Preview по всьому зображенню, щоб прикинути, як воно виглядатиме в різних місцях. Якщо все добре, збережіть отриманий профіль фільтрації, він буде використаний дляпакетної обробки решти сторінок.

4) Вкладка: Output Image

Тут ви можете натиснути на Apply та подивитися, що вийшло. А якщо ви впевнені, що налаштували NI+ добре, то одразу переходьте до пакетної обробки решти сторінок. Просто натисніть Esc і ви потрапите у вікно пакетного обробника.

5) Вікно пакетного оброблювача

File -› Bath, додаєте потрібні сторінки (не забудьте у "Filter Presets" позначити "Use specified preset" і вибрати збережений раніше, при налаштуванні по зразковій сторінці пресет. Нарешті можна запустити процес обробки. Він довгий, тому запустіть його на ніч, або , Навпаки, з ранку, перед відходом на роботу.