Вивчення англійської мови за допомогою субтитрів

Неодноразово на Хабрі порушувалися теми про методи вивчення англійської мови і зокрема про вивчення за допомогою субтитрів. Субтитри допомагають визначити фрази і слова в швидкій промові актора, а також це один з найбільш цікавих і ефективних методів тренування слухової, зорової, емоційної пам'яті.

Звичайно ж, і цей метод має свої недоліки. Особисто мені завжди хотілося, щоб незнайомі слова підписувалися перекладом, а титри, в яких мені всі відомі, не показувалися. Наскільки я наблизився до цього, буде описано далі.

Всі ці методики варті уваги, але я на них витрачав дуже багато часу. Тому вирішив написати програму LinguaSubtitle із генерації субтитрів на основі словникового запасу.

Програма працює за таким принципом: з тексту субтитрів вибираються всі слова, кожне слово проходить стемматизацію, після чого порівнюється з базою слів, які вже зустрічалися у попередніх фільмах. У результаті виводиться така таблиця:

Ця таблиця відображає всі слова, які знаходяться у субтитрі. Тільки колонкаПерекладє редагованою, де ви можете ввести переклад до слова, якщо перекладу немає, то вважається, що вам знайоме це слово і ви хочете вивчити його застосування в контексті. У колонціКол.вказано скільки разів це слово зустрічається в завантаженому субтитрі. У останній колонці цифра означає кількість субтитрів, у яких з'являлося це слово.

Зрозуміло, цей спосіб не є ідеальним і має низку недоліків. Враховуючи, що в отриманих субтитрах невідоме слово підписується зверху перекладом, переклад може складатися з одного максимум двох слів. А як ви розумієте, описати, одним словом, усі можливі варіанти перекладів непросто. Тому слова у колонці «Переклад»скоріше дає вам відправну точку у реєстрі ваших знань. Друге, що хотілося б відзначити те, що всі слова, оброблені через програму, не перевіряються на приналежність до частин мови, а в англійській дуже багато слів, які можуть виконувати різні ролі в реченні (наприклад, home – 1.сут.дом, 2.додаток.домашній, 3.нареч.вдома;у безпеці, 4.гл. це також варто враховувати.

  1. Так як переклад повинен знаходитися точно над невідомим словом, то в налаштування плеєра як шрифти для субтитрів потрібно встановити будь-який з моноширинних шрифтів з підтримкою кирилиці. Наприклад: Consolas, Courier New та ін.
  2. Тестував субтитри у VLC. На решті не пробував. Windows Media Player точно не підходить.
  3. Посилання на репозитарій – github.com/mollusc/LinguaSubtitle.