Переклад документів XML за допомогою xml tm

Існують різні підходи до оптимізації процесу перекладу.

Машинний переклад

Мовна технологія останні 40 років розвивалася досить різноманітно. Ранні надії на дешевий автоматичний переклад невдовзі призвели до фрагментації і по суті незначної ролі даної технології, яка нині використовується для розуміння сенсу деяких текстів іноземною мовою. За цей період мовна технологія значно просунулася вперед, і всі ми щодня куштуємо її плоди, коли використовуємо перевірку граматики, орфографії та пошукові системи. Проте від практичного машинного перекладу довільного тексту нас все ще відокремлює довгий шлях, хоча були деякі зрушення, якщо текст дуже строго контролювався і був з дуже вузької області.

Перекладна пам'ять

У разі часто мінливої документації, що відбиває поліпшення і нововведення у життєвому циклі продукту, найкращим відповіддю питання зменшення витрат на переклад до нашого часу було використання перекладацької пам'яті. У порівнянні з машинним перекладом такий підхід до мовної технології є відносно примітивним, проте приносить відчутну вигоду.

Суть перекладацької пам'яті полягає в групуванні раніше перекладеного тексту цільовою мовою з вихідною мовою. Робиться це або вручну, або автоматично з використанням контрольованого середовища процесу перекладу. Угруповання зазвичай виробляється лише на рівні пропозиції, що дає найкращий рівень практичної деталізації. Згруповані вихідний та цільовий текст зберігаються в базі. При наступному оновленні документа здійснюється пошук у базі з метою знаходження будь-якого тексту, що не змінився. Там, де такі фрагменти виявлено, текст вихідною мовою може бути заміненийна цільовій. Такий метод хоч і низькотехнологічний, дає переваги, роблячи переклад послідовнішим і зменшуючи витрати.

Головним недоліком підходу є той факт, що перекладана частина тексту цією мовою може залежати від контексту. При отриманні тексту з бази перекладацької пам'яті він не захоплює контекстної інформації, з якою він існував у вихідному документі. Через те, що жодної інформації щодо тексту цільовою мовою немає, перекладачеві все ж таки доводиться перечитувати і, якщо потрібно, правити підібраний текст. Нехай у порівнянні з суцільним перекладом процес вичитування є менш дорогим, він потребує часу та грошей.

Переклад XML-документів

Особливої згадки стоять деякі важливі стандарти, що базуються на XML , що стосуються технології перекладу:

Всі ці чудові стандарти спрямовані на обмін інформацією, використовуючи XML, а не на власне переклад XML-документів

В основі xml:tm лежить концепція "текстової пам'яті". Текстова пам'ять складається з двох компонентів:

Авторська пам'ять

Наступна діаграма показує, як простір імен tm прив'язується до існуючого документа XML:

Нижче наведено приклад фрагмента документа, що використовує xml:tm. Елементи xml:tm підсвічені червоним, показуючи, як xml:tm прив'язується до існуючого XML-документа.

І скомпонований документ:

Перекладна пам'ять

Коли документ у просторі імен xml:tm готовий до перекладу, сам простір імен вказує текст, який потрібно перекласти. Простір tm може бути використаний для створення XLIFF-документа на переклад.

Текст, підсвічений рожевим, позначає місця, де перекладений текст замінить текст вихідною мовою,як показано нижче:

Після завершення перекладу текст цільовою мовою може бути об'єднаний з вихідним документом для створення нової версії документа цільовою мовою. У результаті виходить ідеально впорядкований вихідний документ та документ цільовою мовою.

Нижче наведено приклад перекладеного документа xml:tm:

Ось приклад скомпонованого перекладеного тексту:

Вихідний та цільовий текст пов'язані на рівні пропозиції унікальними ідентифікаторами xml:tm. У разі редагування документа зміненим та новим текстовим одиницям призначаються нові ідентифікатори. Якщо текст витягнеться на переклад з оновленого вихідного документа, текстові одиниці, які не були змінені, можуть бути автоматично заміщені текстом цільовою мовою. XLIFF-файл, що виходить при цьому, може виглядати наступним чином:

Ідеальний збіг

Наступна діаграма показує, як працює спільний збіг:

Збіг з xml:tm

xml:tm дає набагато більш сфокусовані типи збігів, ніж традиційні системи перекладацької пам'яті. Існують такі типи збігів.

Авторська пам'ять дає точні подробиці про будь-які зміни у документі. Там, де текстові одиниці для раніше перекладеного документа були змінені, можна сказати, що маємо ідеальний збіг. Поняття ідеального збігу є ключовим. З традиційними системами перекладацької пам'яті перекладачеві доводиться перевіряти кожен збіг, тому що немає способу перевірити доречність збігу. Перевірка зазвичай оплачується за ставкою 60% вартості стандартного перекладу. З ідеальним збігом необхідність перевірки відпадає, що позитивно позначається на вартості перекладу.

Регульовані збіги у документі.

xml:tmкрім того, може використовуватися для регульованих збігів у документі, які більше відповідатимуть заданому документу, ніж звичайні регульовані збіги перекладацької пам'яті.

При перекладі документа xml:tm процес перекладу забезпечує ідеально суміщені текстові одиниці вихідною та цільовою мовою. Вони послідовно та автоматично можуть використовуватися для створення додаткової перекладацької пам'яті.

Нечіткі збіги у документі.

Текстові одиниці, що містяться в базі даних регульованої пам'яті, також можуть бути застосовані для створення нечітких збігів зі схожим раніше перекладеним текстом. На практиці нечіткі збіги можуть мало чим допомогти перекладачеві за винятком випадків, коли текстові одиниці досить довгі, а різниця між вихідною та існуючою пропозицією дуже мала.

У технічних документах часто можна побачити велику кількість текстових одиниць, складених лише з цифрових, буквено-цифрових, пунктуаційних одиниць та одиниць виміру. За допомогою xml:tm такі одиниці можна визначити при написанні тексту і позначити як неперекладні, зменшуючи кількість слів для перекладу. У текстових одиницях, що складаються лише з цифр та одиниць вимірювання, роздільники десятків і тисяч можна автоматично конвертувати відповідно до вимог цільової мови.

Нижче наведено приклад неперекладного тексту xml:tm :

І приклад скомпонованого тексту:

Підрахунок слів

Вихідні дані процесу отримання тексту застосовуються клієнтом для автоматичного підрахунку слів і збігів. Це дозволяє контролювати підрахунок слів йому, а чи не постачальнику. Така відмінність істотно, вона дозволяє жорсткіше контролювати витрати.

XLIFF та переклад онлайн

Схематрадиційного перекладу:

У схемі перекладу за допомогою xml:tm вся обробка відбувається серед клієнта:

Переваги використання xml:tm

Нижче наведено список основних переваг підходу xml:tm до створення та перекладу текстів:

Автоматичне створення статистики написання тексту.

Автоматичне поєднання вихідного та цільового тексту.

Ідеальний збіг перекладу для постійних текстових одиниць.

Регульовані збіги та збіги змінених текстових одиниць у документі.

Автоматичне створення статистики підрахунку слів.

Автоматичне створення ідеальних, регульованих, змінених або нечітких збігів.

Захист структури вихідного документа.

Можливість створення онлайн-доступу для перекладачів.

Можливість непомітного використання перехідних перекладів.

Висновок

xml:tm — технологія, заснована на просторах імен, створена і підтримувана компанією Xml-Intl і спирається на XML і XLIFF, що є плюсом для спільноти XML. Подробиці визначень xml:tm (визначення типу даних XML та XML-схема) знаходяться на сайті Xml-Intl. Крім цього Xml-Intl постачає реалізацію xml:tm з використанням Java і Oracle, що включає лінгвістично спрямовані збіги, як регульовані базою даних, так і нечіткі.

Планується доповнити простір імен текстової пам'яті граматичний простір імен, щоб забезпечити можливість впровадження граматичної інформації в XML-документи та обміну нею між додатками.

xml:tm найбільше підходить для реалізації на рівні підприємства для фірм із великими щорічними потребами у перекладі та великими системами управління документами. У процесі реалізації xml:tmінтегрується у систему управління документами клієнта.

Підхід xml:tm зменшує вартість перекладу такими засобами:

Перекладна пам'ять зберігається клієнтом у документах.

Ідеальний збіг зменшує вартість перекладу, усуваючи необхідність перевірки таких збігів перекладачами.

Збіг перекладацької пам'яті сфокусовано набагато краще, ніж у випадку з традиційними системами перекладацької пам'яті, що дає кращі результати.

Можливість проміжної обробки перекладацької пам'яті через перехідну мову.

Усі перекладацька пам'ять, вилучення та злиття відбуваються автоматично, немає необхідності ручного втручання.

Переклад може здійснюватися безпосередньо через сайт клієнта.