Лінгвістична статистика
Крім того, як різні генеральні сукупності можуть розглядатися інвентарі лінгвістичних форм: у цьому випадку кожна лінгвістична форма є вибіркою (з повторенням) з інвентарю форм одного з попередніх рівнів, напр., будь-які пропозиції можна розглядати як вибірку слів з інвентарю словоформ, або як вибірку морфів із інвентарю морфем, або як вибірку звуків мови з інвентарю фонем.
Залежно від характеру досліджуваних лінгвістичних одиниць розрізняють фонологічну статистику, що займається статистичним вивченням закономірностей вживання звуків мови, фонем, складів тощо, морфологічну статистику, що займається статистичним вивченням вживання різних морфологічних форм (основ, суфіксів, моделей слів, частин мови п.), лексичну статистику, що займається статистичним вивченням закономірностей вживання слів та словосполучень. Стилістична статистика встановлює статистичними методами особливості функціональних, жанрових та індивідуальних стилів. Крім зазначених розділів, у Л. с. виділяють також типологічну статистику, що займається виробленням кількісних типологічних ознак мов, іхронологічну статистику (глоттохронологію), що займається розробкою методів визначення часу розбіжності мов. Для всіх розділів Л. с. характерно використання поняття частоти лінгвістичної форми як міру її уживаності.
Л. с. як наук. дисципліна виникла у зв'язку з прагненням розширити сукупність структурних характеристик лінгвістичних форм характеристикою їхньої вживаності. При цьому виходили з припущення, що будь-якій лінгвістичній формі властива апріорна ймовірність бути використаною в тексті. Власне ця ймовірність і має характеризуватиуживаність даної лінгвістичної форми. Як метод відшукання цих можливостей використовується вибірковий спосіб статистики, дає наближену оцінку вживаності лінгвістичної форми як її відносної частоти. Л. с. вивчає як відносні частоти лінгвістичних форм та його класів, а й такі характеристики форм, як його розмір (довжина), сполучуваність (сила зв'язку), розподіл у тексті. Відмінність між текстами може перебувати у різному складі форм й у різної їх употребительности. Цей факт використовує стилістична статистика, що виробляє методи порівняння текстів за складом та уживаністю форм та отримання оцінок ступеня відмінності текстів. Тексти різними мовами характеризуються різною відносною частотою елементів подібного типу. Це використовує типологічна статистика для розробки методів типологічного зіставлення мов та отримання оцінок для т.з. типологічних індексів Напр., відношення числа морфем до слів у тексті може бути мірою синтезу мови (наз. його індексом синтетичності). В'єтнамська мова, в якій слова практично одноморфемні, характеризується індексом синтетичності 1,06 на відміну від ескімоського, в якому індекс синтетичності дорівнює 3,72. Між ними розташовуються англійська (1,68), українська та українська мови.
Окрему галузь Л. с. складають дослідження, які використовують методи теорії інформації. В ПП. сформульовано низку специфічних лінгвостатистичних завдань, таких як знаходження обсягу словника тексту за його довжиною, знаходження обсягу повного словника письменника за вибіркою з текстів цього письменника, оцінка ступеня неоднорідності текстів на різних рівнях, характеристика статистичної структури тексту, встановлення зв'язків між статистичними характеристикамилінгвістичних форм різних рівнів та ін.
У зв'язку із вирішенням цих завдань виникли проблеми вивчення лінгвостатистичних розподілів. У дослідженні структури мови використовуються і якісні, і кількісні характеристики його елементів, а це дозволяє глибше зрозуміти механізм мови та принципи її породження. Дані про вживаність елементів мови, насамперед слів, широко використовуються в таких прикладних галузях, як викладання мов, текстологія, стенографія, машинний переклад, зв'язок та ін.
Літ.: