Книга DjVu-мейкерство для початківців

Djvu-мейкерство для початківців

У цьому посібнику зроблено спробу проінструктувати весь процес створення повноцінної djvu-книги, починаючи з обробки відсканованих зображень (сканів) сторінок і закінчуючи створенням електронного змісту. Розглядаються питання поділу текстової та графічної складових за допомогою програми ScanKromsator, обробки, djvu-кодування та впровадження ілюстрацій у готовий djvu-файл з текстами згідно з розробленою методикою вклеювання ілюстрацій (МВІ, метод розділеного кодування). Дана методика дозволяє досягти якісного збереження ілюстративного матеріалу та компактності djvu-книги за рахунок оптимального кодування текстової та графічної складових оброблюваних книг (журналів).
Матеріал: сторінки з чорно-білими (ч/б), напівтоновими та/або кольоровими (далі – напівтоновими/колірними) ілюстраціями.
Опис У цьому посібнику зроблено спробу проінструктувати весь процес створення повноцінної djvu-книги, починаючи з обробки відсканованих зображень (сканів) сторінок і закінчуючи створенням електронного змісту. Розглядаються питання поділу текстової та графічної складових за допомогою програмиScanKromsator, обробки, djvu-кодування та впровадження ілюстрацій у готовий djvu-файл з текстами згідно з розробленою методикою вклеювання ілюстрацій (МВІ, метод розділеного кодування). Дана методика дозволяє досягти якісного збереження ілюстративного матеріалу та компактності djvu-книги за рахунок оптимального кодування текстової та графічної складових оброблюваних книг (журналів). Детально ознайомитися з поняттями, методами djvu-кодування, а також МВІ можна насайт http://sourceforge.net [1].
У загальних рисах суть створення якісного та компактного djvu-файлу виражається в роздільному кодуванні (стисненні) одноколірного тексту, малюнків та растрових ілюстрацій (напівтонових, кольорових) відповідними алгоритмами. При цьому інформація про одноколірний текст і малюнки заноситься в шари mask і foreground, а інформація про растрових зображень - шар background. У кожному шарі інформація максимально стиснута завдяки розробленим та вдосконаленим алгоритмам. На сьогоднішній момент проблема коректного автоматизованого поділу тексту та зображень та їх кодування у відповідних шарах djvu-книги повністю не вирішена. Згідно з МВІ пропонується використовувати ручний поділ шару тексту та ілюстрацій з подальшою обробкою та вставкою ілюстрацій у шар background. Одна із супутніх проблем – наявність растру у зображеннях та вибір методу його видалення. Однозначного рішення у виборі доступного та якісного методу видалення растру поки немає, існуючі методи розмиття растру вимагають візуального контролю та кмітливості у підборі оптимальних параметрів та послідовності дій. Але про це згодом.
Наведу середні розміри одержуваних по МВІ djvu-сторінок залежно від типу змісту: тексту, ч/б малюнків, напівтонових чи кольорових ілюстрацій (див. табл.). У розрахунках умовно передбачається, що текст, малюнки та ілюстрації займають рівні частини сторінки, наприклад, 50% тексту+50% ч/б малюнків=15-35 Кб. Зазначу, що розмір кодованих ілюстрацій багато в чому залежить як від характеристики палітри кольорів, так і параметрів застосовуваного розмивання.
Таблиця розмірів djvu-сторінки з різним наповненням, Кб
Так, кодована в djvu науково-технічна книга з чорно-білими малюнками (10% усієї книги)розміром приблизно 300 стор буде «важити» ([5-20] * 0,9 + [25-50] * 0,1) * 300 = 2,1-6,9 Мб. Ілюстрований журнал (наприклад, «Сабрина») з текстом (40%) і кількістю 50 стор. закодується в ([150-500]*0,6 + [5-20]*0,4)*50 = 4,6 -15,4 Мб, тобто. у середньому – 10 Мб, що підтверджується практикою.
Дана методика застосовна до скан паперових видань з чорно-білими, напівтоновими або кольоровими малюнками або без таких взагалі (див. рис. 1).

Мал. 1. Приклад типового скана розвороту книги, на якому є ч/б малюнок та напівтонова ілюстрація
Мається на увазі, що вихідні скани мають роздільну здатність 300 dpi, хоча можуть мати й інші значення – 400, 600 dpi. Після обробки та кодування у формат djvu на виході отримуємо файл, що складається з зображень тексту, що мають роздільну здатність 600 dpi, та впроваджених у них зображень малюнків, які мають початкову роздільну здатність 300 dpi. Автор вважає за краще сканувати паперову літературу з роздільною здатністю в 300 dpi оскільки: 1) якість тексту та ілюстрацій зберігається на належному рівні; 2) досягається оптимальний час сканування і скани зображень займають прийнятний об'єм пам'яті на жорсткому диску (книга, що має 300 стор, сканується на весь розворот в середньому 3 години і займає близько 1,5 Гб). Зменшуючи роздільну здатність зображень малюнків, ілюстрацій, з початкових 300 dpi до 200 і нижче, ми тим самим помітно погіршуємо їхню кінцеву якість, оскільки зображення в процесі кодування зазнають сильного розмиття, затираються дрібні деталі, які і так були зменшені до не можна. Пам'ятайте – хороша та djvu-книга, яка практично не відрізняється від оригіналу!
Методика складається з кроків, які мають чіткий порядок дотримання:
Крок 1. Підготовка до обробки сканів уСК. На даному етапіпризначаються завдання на обробку сканів та вказуються їх параметри:
– оформлення та параметри сторінки – завдання вихідного формату, палітри кольорів, розміру, назви файлу, дозволу, розміщення вмісту сторінки (тобто полів), повороту, розрізання розворотів на окремі сторінки;
– обробка зображень тексту з метою приведення його до ч/б виду з максимальним збереженням оригінальності та чіткості контурів тексту. Використовуються операції: очищення від дрібного сміття, розмивання, згладжування, збільшення різкості, налаштування освітлення, зміна контрасту та яскравості тощо. д. Відповідно до вимог користувача вибираються необхідні операції та для них налаштовуються параметри.
Крок 2. Виділення ілюстрацій (ч/б, напівтонових, кольорових) у зони для налаштування параметрів індивідуальної обробки. До зон можна застосувати ті ж дії – очищення від дрібного сміття, розмивання і т.д.
Крок 3. Автоматична обробка всіх сторінок програмоюСК.
Крок 4. Об'єднання зон ч/б малюнків із текстом.
Крок 5. «Косметична» постобробка оброблених сторінок.
Крок6. Обробка напівтонових / кольорових ілюстрацій (розмивання, коригування тонального, зафарбовування сміття, білих плям та інше).
Крок 7. Формування сторінок тільки з напівтоновими / кольоровими ілюстраціями.
Крок 8. Djvu-кодування всіх сторінок, крім сторінок-ілюстрацій.
Крок 9. Приведення сторінок-ілюстрацій до початкового дозволу (дозвіл сканування).
Крок 10. Djvu-кодування сторінок та їх об'єднання (склеювання) з djvu-сторінками тексту.
Крок 11. Створення OCR-шару на основі сторінок тексту та його впровадження в djvu-книгу.
Крок 13. Створенняелектронного змісту у фінальній djvu-книзі за допомогою програмиDjvu Bookmarker.
Схема проходження кроків зображена на рис. 2. Також зазначено тип кроку з погляду автоматизації.
Залежно від типу паперового носія, його змісту, а також вимог користувача, деякі кроки методики можуть пропускатися. У Додатку наведено кроки обробки найпоширеніших типів паперового видання: науково-технічної літератури, ілюстрованих журналів, книг без будь-яких малюнків та ін.
Стаття ілюструється прикладами, супроводжується порадами і орієнтована на користувачів-ентузіастів-початківців і буде, сподіваюся, цікавою досвідченим умільцям.
Успіхів у ваших починаннях та експериментах!

Мал. 2. Загальна схема створення djvu-книги залежно від наявності у ній ілюстрацій різного типу. Вказано приблизні часові витрати на виконання різних етапів (для комп'ютера з процесором 2,3 Гц, оперативною пам'яттю 1 Гб)