Набір інструментів WordSmith Tools, Лінгвістичний процесор GATE, Інструментарій AntConc -

WordSmith Tools - це комерційний набір інструментів вивчення поведінки слів у текстах [9]. Програмний пакет був розроблений британським лінгвістом Майком Скоттом в університеті Ліверпуля, версія 1.0 була випущена у 1996 році. WordSmith Tools містить три модулі, які описані нижче.

1. Модуль Concord використовується для створення конкордансів, тобто списку всіх вживань заданого мовного виразу (наприклад, слова) в контексті.

2. Модуль WordList містить список усіх слів або словоформ, включених у вибраний корпус, а також статистичні дані відмінності від корпусу текстів.

3. Модуль «KeyWord» створює список ключових слів та граматичних форм відповідно до певних статистичних критеріїв.

Лінгвістичний процесор GATE

GATE – General Architecture for Text Engineering – система обробки природної мови з відкритим вихідним кодом, що використовує набори компонентів на мові Java. Система вирішує такі завдання, як вилучення інформації, ручна та автоматична семантична інструкція, аналіз кореферентності, робота з онтологіями, машинне навчання, аналіз потоку повідомлень у блогах [5]. Розробники проекту - університет Шеффілда, перша версія проекту було випущено 1995г. Остання випущена версія на 2015 рік – версія 8.1.

1. Лінгвістичні ресурси.

2. Програми обробки документів.

GATE підтримує велику кількість форматів текстів: Plain Text, Email, PDF, формати Microsoft Office і т.д., а також має своє сховище даних, необхідне для зберігання документів, корпусів текстів та їх подальшого використання. GATE згадується у величезній кількості публікацій, статей, книг та журналів, наприклад, у роботі Грехема Вілкока «Лінгвістична анотація та аналіз тексту»[11], випущеної 2009р.

Сімейство GATE складається з таких продуктів:

  • IDE GATE Developer - інтегроване середовище розробки для компонентів мовної обробки, що поставляється спільно з широко використовуваною системою «Information Extraction» та комплексним набором інших плагінів.
  • Веб-додаток GATE Teamware - економічно ефективне середовище, призначене для анотування та курування проектів, що дозволяє використовувати розподілені трудові ресурси, відстежувати прогрес та результати навчання дистанційно в режимі реального часу.
  • Програмна платформа GATE Embedded - об'єктна бібліотека, оптимізована для інтеграції до різноманітних програм, що надає доступ до всіх служб, доступних у GATE Developer та деяких додаткових сервісів.
  • GATE Cloud.net - хмарний сервер для розміщення та обробки великомасштабних текстів.

GATE Developer і GATE Embedded поставляються в комплекті разом із системою автоматичного вилучення інформації (ANNIE - a Nearly-New Information Extraction System). Одна з причин, завдяки якій GATE має великий успіх, у тому, що його ядро ​​розбивається на фрагменти з можливістю повторного використання.

Інструментарій AntConc

AntConc – безкоштовний інструментарій для корпусного аналізу, побудови конкордансу та аналізу тексту [12]. AntConc був розроблений Лоуренс Ентоні в університеті Васеда, Японія. Дане програмне забезпечення включає сім інструментів:

1. "Concordance Tool", відображає результати у форматі "ключове слово в контексті".

2. Concordance Plot Tool, відображає результати у форматі «штрих-код», тобто виділяє позиції результатів пошуку в початковому тексті.

3. "File View Tool", дозволяєдокладніше досліджувати результати, отримані з допомогою інших інструментів.

4. "Clusters/N-Grams", відображає кластери на основі пошукових умов. В основному, тут узагальнюються результати, отримані в Concordance Tool або Concordance Plot Tool. Однак цей інструмент також сканує весь корпус для кластерів різної довжини, що дозволяє знайти загальні вирази в корпусі.

5. "Collocates", відображає словосполучення, що використовуються з пошуковим запитом, що дозволяє досліджувати непослідовні структури в мові.

6. Word List, підраховує всі слова в корпусі і будує їх у впорядкований список. За допомогою цього інструменту можна швидко визначити частоту появи слова у корпусі.

7. «Keyword List», показує слова, які у корпусі надзвичайно часто (чи навпаки, рідко), проти еталонним корпусом.