Оцифрування величезних архівів як наші технології допомогли бібліотеці Хартлі, Офіційний блог ABBYY

наші

Оцифрування величезних архівів: як наші технології допомогли бібліотеці Хартлі

величезних

Нещодавні сумні події у науковій бібліотеці ІНІОН у Москві підняли хвилю обговорень про значущість оцифрування бібліотечних фондів. Адже у вік цифрових технологій ми можемо не лише зберігати рідкісні видання, але ще й робити їх доступними кожному для читання – ні для кого не секрет, що в інтернеті можна знайти не лише окремі книги (або збори творів), а й цілі бібліотеки. Наприклад, одна з найкращих наукових бібліотек Великобританії, бібліотека Хартлі Саутгемптонського університету, розпочала оцифрування своїх архівів у 2010 році. А допомогло їй у цьому рішення для автоматичного розпізнавання документів ABBYY Recognition Server. Якщо хочете дізнатися більше подробиць, ласкаво просимо під кат.

Технічні деталі

Проектами з оцифрування даних Хартлі займається окремий підрозділ – LDU (Library Digitisation Unit). У його розпорядженні 7 сканерів (6 книжкових та 1 рядковий) та ABBYY Recognition Server для обробки текстів та зображень. Керує процесом веб-додаток Goobi Production Workflow – опен-сорсний програмний пакет, взятий на озброєння найбільшими європейськими бібліотеками для оцифрування культурної спадщини у «промислових» масштабах.

Завдяки відкритому програмному інтерфейсу Recognition Server вдалося легко інтегрувати рішення з Goobi, і процес оцифрування став виглядати так:

  • За кожним сканером LDU працює спеціально навчена людина – оператор. Як тільки він повністю відсканує книгу чи документ, до процесу підключається Goobi. Програма ставить Recognition Server задачу обробити готову стопку файлів. Декілька операторів плюс багато документів, і виходитьсвоєрідний конвеєр, а Goobi спостерігає всіх, як великий брат.
  • Recognition Server автоматично обробляє зазначені файли: розпізнає, конвертує, індексує. Goobi перевіряє виконання завдання і результат відправляється в інтернет.

Завдяки такій комбінації бібліотека Хартлі обробила понад два мільйони зображень, а користувачі всесвітньої павутини отримали доступ до досить незвичайних PDF-колекцій.

А що оцифрували?

Хартлі виклала в інтернет букіністичні раритети: від памфлетів на злобу дня та парламентських біллів 19 століття до докторських дисертацій та антикварних книг з в'язання. Все доступно в PDF з можливістю пошуку та живе на кількох веб-ресурсах.

наші

наші