Випускна робота з предмету «Основи інформаційних технологій»
Білоукраїнський державний університет
Випускна робота з предмету
«Основиінформаційних технологій»
ВИКОРИСТАННЯ ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ У ЛІНГВІСТИЦІ
кафедри теоретичного та слов'янського мовознавства
Базилєва Ірина Сергіївна
доктор філологічних наук, професор
старший викладач П.П. Кожич
Зміст
Реферат на тему «Використання інформаційних технологій у лінгвістиці»
ГЛАВА 1 ЗНАЧЕННЯ КОРПУСНОЇ ЛІНГВІСТИКИ У СУЧАСНИХ дослідженнях з МОВИЗНАННЯ 7
1.1. Ключові поняття корпусної лінгвістики: корпуси текстів, корпусний аналіз 7
1.2. Універсальні та спеціальні корпуси текстів 9
Розділ 2 Використання інтернет-ресурсів у Лінгвістичному дослідженні 11
2.1. Сучасний стан ресурсів Інтернету, присвячених проблемам лінгвістики 11
2.2. Контент-аналіз ресурсів Інтернет, присвячених питанням лінгвістики 13
Список літератури до реферату 17
ІНТЕРНЕТ РЕСУРСИ У ПРЕДМЕТНІЙ ОБЛАСТІ ДОСЛІДЖЕННЯ 19
Особистий сайт, що діє, в мережі Інтернет 21
Граф наукових інтересів 22
Презентація кандидатської дисертації 24
Тестові питання щодо Основ інформаційних технологій 25
Реферат на тему «Використання інформаційних технологій у лінгвістиці»
Величезну роль інформаційні технології (далі ІТ) стали грати під час навчання іноземних мов, у процесі алгоритмізації лінгвістичних завдань, під час обробки лінгвістичних текстів тощо. (Див. Зубов 2004). Використання інформаційних технологій у лінгвістиці стало необхідністю. Однак насправді для лінгвістичних завдань використовується лише невелика частина всього обсягу ІТ: електроннісловники та довідники, деякі програми Microsoft Office. Найбільш поширеним лінгвістичним завданням у нашій країні є пошук інформації в мережі Інтернет [3, 239].
На жаль, значний потенціал сучасних інформаційних технологій залишається незадіяним, через недостатню комп'ютерну грамотність філологів, відсутність фінансування науково-дослідних проектів з прикладних питань лінгвістики, вузькоспеціальних інтересів дослідників та інших причин.
Мета даної роботи – виявити основні способи та галузі застосування інформаційних технологій у лінгвістичному дослідженні.
Справжня робота складається із вступу, двох розділів, висновків, списку використаних джерел у кількості 13 найменувань, а також предметного покажчика.
У вступі обґрунтовується актуальність досліджуваної теми. У першому розділі освячуються основні поняття корпусної лінгвістики, а також шляхи її застосування у мовному дослідженні. У другому розділі характеризується сучасний стан Інтернет-ресурсів, аналізуються проблеми лінгвістичного пошуку в Мережі, проводиться контент-аналіз деяких сайтів в Інтернеті.
ГЛАВА 1 ЗНАЧЕННЯ КОРПУСНОЇ ЛІНГВІСТИКИ У СУЧАСНИХ дослідженнях з МОВИЗНАННЯ
1.1. Ключові поняття корпусної лінгвістики: корпуси текстів, корпусний аналіз
За допомогою корпусів текстів можуть вирішуватися різні завдання, тому робота з ними стала одним з провідних методів лінгвістичних досліджень [6, 68-77]. Так, на основі аналізу безлічі текстів можна зробити висновок про мова, що цікавить дослідника, явище, наприклад, про поведінку граматичної або синтаксичної конструкції, використання виразних засобів у природному мовному середовищі, тобто. у реально існуючих,а не штучно сконструйованих контекстах. Крім того, корпусні дослідження дозволяють, використовуючи статистичні методи, сформулювати, підтвердити або спростувати гіпотезу про те чи інше мовне явище на великому обсязі матеріалу. При цьому якщо дослідник користується вже існуючим корпусом, він повністю минає довгий і трудомісткий етап збору матеріалу (опитування інформантів, робота зі словниковими картотеками або письмовими текстами). Таким чином, можливість широкого застосування електронних ресурсів, з одного боку, значно полегшила філологам та лінгвістам процес збирання інформації, з іншого боку, посилила вимоги до доказової бази лінгвістичних досліджень.
Центральним поняттям корпусної лінгвістики є письмовий текстовий масив чи корпус текстів. У лінгвістичній літературі є кілька визначень корпусу текстів. Наприклад, А.Н.Баранов розглядає корпус текстів як вид корпусу даних, одиницями якого є тексти або їх досить значні фрагменти, що включають, наприклад, повні фрагменти макроструктури текстів даної проблемної області. У цьому під корпусом даних розуміється сформована за певними правилами вибірка даних із проблемної області, тобто. в галузі реалізацій мовної системи, що містить феномени, і яка підлягає лінгвістичному опису [1, 112-113].
А.В. Зубов розглядає корпус текстів «як сукупність текстів, які є достатньою основою для забезпечення надійних наукових висновків про деяку мову або інше підмножина мови» [4, 64]. Після D.Biber, S.Conrad, R.Reppen А.В.Зубов під корпусним аналізом розуміє використання корпусів текстів щодо лінгвістичного аналізу та виділяє такі особливості цього виду аналізу:
1. Він є виключно емпіричним, оскільки спирається на аналіз реальних прикладів, які у природних текстах.
2. Його основою є спеціальним чином побудовані великі збори текстів природних мов.
3. Він широко використовує комп'ютерний аналіз, у тому числі автоматичні та інтерактивні прийоми.
4. Він спирається на кількісний та якісний аналітичний прийом [4, 64].
Існує кілька вимог, що пред'являються до складу та структури корпусу. По-перше, це вимога повноти. Будь-яке мовне явище, хоч би яким рідким воно було, повинно знайти відображення в корпусі. По-друге, вимога репрезентативності. Корпус повинен відображати ті чи інші параметри досліджуваного мовного явища у тій самій пропорції, що й у мові взагалі. Важливим параметром корпусу є його обсяг. Так, якщо перші корпуси сягали мільйона слововжитків, то обсяг сучасних корпусів обчислюється сотнями мільйонів чи навіть мільярдами (відомо, що обсяг корпусу англійської мови Bank of English перевищує 2,5 млрд. слів).
1.2. Універсальні та спеціальні корпуси текстів
Більшість сучасних корпусних менеджерів (тобто програм, що забезпечують сортування результатів пошуку, статистичні підрахунки, складання конкордансів та словарів на основі корпусу) дозволяють здійснювати пошук різноманітних інформації. Наприклад, пошук конкретних словоформ, пошук словоформ по лемі (тобто. пошук усіх форм одного й того ж слова, що зустрілися в тексті), пошук нерозривних та розривних словосполучень. Більше того, завдяки наявності спеціальної метарозмітки, користувач має можливість створювати свій підкорпус текстів, відібраних за жанром, тематикою, часом написання тощо. Кожен із прикладів видачі забезпечуєтьсяінформацією про джерело, звідки взято приклад. У деяких корпусах також можна отримувати статистичну інформацію про те чи інше мовне явище; його відносну частоту, розподіл за жанрами чи тимчасовими зрізами, частоту його сполучуваності.
Розділ 2 Використання інтернет-ресурсів у Лінгвістичному дослідженні
2.1. Сучасний стан ресурсів Інтернет, присвячених проблемам лінгвістики
В даний час мережа Інтернет, а також найбільш популярний сервіс цієї мережі - WWW (World Wide Web), створений в 1991 р., дозволяють користувачам обмінюватися практично будь-якою інформацією, отримувати доступ до різноманітних джерел інформації, не розташованим в безпосередній близькості. Відходячи від суто утилітарного бізнес-застосування мережі Інтернет, сучасне суспільство почало грамотно, а головне – також стрімко – застосовувати сервіси світової мережі у наукових цілях.
Ресурси мережі Інтернет значною мірою задіяні й у вирішення низки лінгвістичних завдань. Так, розвиваються сайти, створені групами дослідників з певної проблеми (http://www.ruslang.ru/; http://www.mapryal.org/), членами філологічних кафедр на базі вузів (>http://slavic.princeton.edu/events/calendar/detail.php?ID=1921;http://kateosia.by.ru/zaslugi.htm), або користувачами- любителями, які цікавляться сучасними лінгвістичними проблемами (http://www.kluver.ru/). На цих сайтах у вільному доступі є тексти статей різних науковців, список наявних у них публікацій.
Найбільш популярним ресурсом останніх років стали так звані "живі журнали" - онлайнові блоги (або щоденники) користувачів, на сторінках яких також організовані спільноти філологів(http://community.livejournal.com/philologist_ru/profile,http://community.livejournal.com/terra_linguarum/profile). Цінність даного ресурсу у тому, що з його допомогою можна спілкуватися зі своїми колегами, а й у тому, що живі журнали є джерелами найновішої інформації з різних тематичних розділах.
Порівняно з великою кількістю різноманітних сайтів та живих журналів з лінгвістики, використання інших ресурсів Інтернету незначне. До них можна віднести бази даних (у тому числі електронні словники та корпуси текстів) та системи машинного перекладу он-лайн.
Для користувача-лінгвіста наявність словникових джерел у Мережі дозволяє вирішити одразу кілька завдань: швидкий доступ до джерела; якісно новий рівень роботи із джерелом внаслідок зручного інтерфейсу словника online; Одночасна робота з декількома джерелами та ін. Здаються простими, ці завдання неможливо було б вирішити, використовуючи словники на паперових носіях. На даному етапі розвитку лінгвістики більшість спеціальних та перекладних словників мають електронний формат, мають зручну систему пошуку, дозволяють не тільки переглядати, але й прослуховувати окремі компоненти словника. Серед одномовних словників одним із перших був запущений словник англійської мови Merriam-Webster Online Dictionary (http://www.m-w.com). У мережі Інтернет особливої популярності користується ресурс «Словники та енциклопедії online» (http://dic.academic.ru/), а також офіційний сайт AskOxford, на якому можливий пошук лексичних одиниць англійської мови () http://www.askoxford.com/dictionaries/?view=uk) у різних словниках одночасно.
Для філологів-білорусистів доступний повноформатний сайт, на якому користувачі мають доступ до рядуспеціальних словників у режимі он-лайн. Цей продукт представляє інтерес і щодо того, що містить корпус текстів білоукраїнською мовою (http://knihi.com). Не меншу значущість у дослідницьких цілях мають корпуси текстів українською (www.ruscorpors.ru) та англійською мовами (http://www.natcorp.ox.ac.uk).
Цей короткий огляд ресурсів Інтернет дозволяє визнати, що обсяг сайтів, наявність великої кількості форумів, словників та енциклопедій може бути хорошим інструментом для дослідника-лінгвіста. Однак не тільки кількість веб-сайтів, скільки якість їх змісту необхідна для того, щоб вважати їх досить придатними для дослідницької роботи, у тому числі при написанні дисертаційного дослідження.
2.2. Контент-аналіз ресурсів Інтернет, присвячених питанням лінгвістики
1) Швидкий пошук інформації;
2) Ідентифікація джерела інформації;
3) отримання свіжої інформації;
4) Отримання важливих даних [3, 239].
Існує також ряд статей, які допомагають користувачеві шукати необхідну інформацію в Мережі (наприклад, Інтернет ЛікБез). Проте, як цілком слушно зазначає Л.Є. Голубєва, «корисної інформації стає дедалі більше, але знайти щось необхідне – дедалі складніше» [3, 240].
З іншого боку, з'являються спеціальні сайти, що містять численні посилання на джерела у певній предметній галузі (http://orus.slavica.org/taxonomy/term/12).
Слід зазначити, що не всі сайти однаково корисні для дослідницьких цілей. Цікавим прикладом може бути форум «Міжнародна конференція з комп'ютерної лінгвістики» (http://www.dialog-21.ru/forum/actualtopics.aspx?bid=16). Увага до цього ресурсу привертаєтой факт, що основними провідними цього форуму є відомі мовознавці. Так, розділ Лінгвістична семантика очолює відомий лінгвіст Ірина Кобозєва (м. Москва). На форумі кожен користувач має можливість ставити запитання провідному форуму. Але очевидно, що найінформативнішими в даному випадку є саме відповіді лінгвіста. У цьому, з одного боку, нестача форумів (вони притягують некомпетентних у сфері людей), з другого боку, завдяки швидкого зворотний зв'язок, фахівці можуть відповісти питанням велику кількість користувачів відразу, що було неможливо в інших випадках.
Крім того, що до цього моменту малодоступною в Мережі є лінгвістична література у вигляді монографій, дисертацій та ін. У популярних бібліотеках, наприклад, у Бібліотеці Максима Мошкова (www.lib.ru) та деяких інших незважаючи на існуючу літературу з економіки, фізики, кібернетики відсутній розділ, присвячений питанням мовознавства. І хоча багато бібліотек мають свої он-лайн каталоги, саму роботу отримати через Інтернет майже неможливо.
Усі перелічені ресурси Інтернет активно використовуються нами під час написання дисертаційного дослідження. Особливу значущість мають корпуси текстів різними мовами та електронні словники. Не менш важливими є і банки лінгвістичних статей, які розміщені на сайтах вишів та асоціацій лінгвістів.
Висновок
Цілком очевидно, що мине трохи часу до моменту, коли з'являться замовлення на комп'ютерні програми, покликані забезпечувати лінгвістичні цілі та завдання. Зокрема, нагальною залишається проблема статистичного підрахунку та обробки лексичних одиниць, яка традиційно виконувалася вручну, але без чого немислимо жоднедослідження у галузі мовознавства.
Таким чином, на сучасному етапі розвитку техніки комп'ютерна грамотність для філолога є вже не вимогою, а необхідною умовою однієї зі складових професійного успіху.