Основні поняття та положення математичної теорії вимірювань стаття друга

МАТЕМАТИЧНОЇ ТЕОРІЇ ВИМІРЮВАНЬ

(ITEM RESPONSE THEORY)

У першій статті [1] назва Item Response Theory (IRT) була перекладена українською мовою як «математична теорія педагогічних вимірів». Але ця теорія застосовується у педагогічних, але широко використовується також у психологічних, соціологічних, медичних вимірах. Для того, щоб зняти неточність, у другій статті назва була виправлена. Воно втратило неспецифічне слово «педагогічних» і, таким чином, стало коротшим на одне слово. Тепер IRT краще перекладати українською мовою як математичну теорію вимірів (МТІ).

У другій статті досліджуються витоки МТІ, поглиблені та розширені раніше сформульовані поняття, а також подано визначення інших основних понять МТІ (IRT).

Спірний науковий статус МТІ (IRT)

Вже наголошувалося, що українською мовою IRT (МТІ) часто характеризується як «сучасна» теорія педагогічних вимірів. Цим допускається одразу три помилки.

По-перше, інші теорії хіба що автоматично перетворюються на розряд несучасних, що, звісно ж, породжує безліч помилок і негативних наслідків, у теорії та практиці. Жодна наукова теорія не вичерпує себе остаточно; вона розвивається, трансформується та діє в рамках прийнятих умов та обмежень.

І нарешті, третя помилка полягає в тому, що сучасними вважаються [5] не одна, а три основні теорії, що застосовуються зараз у педагогічних та психологічних вимірах: це статистична (класична) теорія, МТІ (IRT) та розширена статистична теорія (РСТ). Остання англійською називається Generalizability Theory (G - Theory) [6] .

Питання розуміння наукового статусу IRT посилилося спробами впровадженняположень цієї теорії до системи української освіти, хоч як це дивно, не через науку, а через практику централізованого тестування та ЄДІ. А ця практика завжди трималася від педагогічної науки якнайдалі. І немає поки що ознак чи спроб зміни цієї нездорової ситуації.

IRT точно не займається питаннями понятійного апарату педагогічних вимірювань, змісту та форми тестових завдань. І не може цим займатися, тому що це формальна теорія і це власний предмет іншої раніше сформульованої теорії - Педагогічної Теорії Вимірювань (ПТІ) [7] , що включає головні питання забезпечення якості педагогічних вимірів. І оскільки в IRT немає ніякого педагогічного змісту, її правильніше розглядати як формальну теорію, а чи не змістовну . Можливо, IRT коли-небудь інтегрується в систему розширеного педагогічного знання, але ефективно це може статися, швидше за все, через поєднання з педагогічною теорією вимірювань (ПТІ). Остання набагато ближче до педагогіки, ніж МТІ (IRT).

У фокусі дослідження МТІ (IRT) - тестове завдання. Це теорія, яка дозволяє досліджувати метричні властивості тестових завдань, оцінити їх формальні властивості, придатність для включення до тесту, ефективності та якості тестових завдань. Для цього використовується обчислення стандартної помилки вимірювання, значення хі-квадрат та визначається рівень достовірності одержуваних вибіркових статистик.

Імовірність правильної та неправильної відповіді в МТІ розглядається як функція від рівня підготовленості досліджуваних і як функція від параметрів завдань. У МТІ дається рішення і зворотного завдання – визначення міри правдоподібності оцінок рівня підготовленості піддослідних, як функції від теоретичної ймовірності спостережуванихемпіричних результатів тестування та від тих самих параметрів завдань. Найбільш правдоподібні значення приймаються як оцінки істинних значень (параметрів) підготовленості піддослідних.

Для того щоб МТІ (IRT) виявлялася як ефективна теорія, вона повинна бути емпірично верифікована у своїх численних додатках. Справа в тому, що сама МТІ нерідко використовується як методична гіпотеза, в порядку апробації методів даної теорії до результатів тесту, що розробляється або вже застосовується. Зрозуміло, мова може йти про гіпотезу застосування МТІ для оцінки тих чи інших тестових завдань.

Головна мета, сфера та головний сенс застосування МТІ – наукове дослідження якості тестових завдань. За великим рахунком, для роботи з нетестовими завданнями МТІ недостатньо застосовна. Хоча такі спроби робилися багато разів, у тому числі для ЄДІ [8] . Але надії математиків створити за допомогою МТІ тести з нетестових завдань марні. Застосування МТІ з метою оцінки якості нетестових завдань породжує суттєві системні протиріччя процесі вимірювання і особливо, при інтерпретації даних. Тести можна створити лише із тестових завдань. Обхідних шляхів у цій справі немає!

Відомо, що спроби вирішення проблем однієї науки засобами іншої науки в принципі приречені на невдачу. Спостережуване у всьому світі, і особливо в Україні, захоплення виключно математичною стороною обґрунтування якості тестів, на шкоду педагогічній стороні – явище не нове і не виняткове. На ситуацію вихолощування представниками однієї науки змісту іншої науки свого часу звернув увагу Гегель. Спроби математиків задавати тон у філософії він називав «варварським педантизмом або педантичним варварством, представлені у всій широті та з усієїґрунтовністю, які мали призвести до того, щоб геометричний метод втратив всяку довіру [9]».

Не випадково, наприклад, у науковій психології, що успішно застосовує математичний апарат вже приблизно сто п'ятдесят років, було зрозуміло, що математика не може претендувати на повне і дійсне вирішення проблем, що належать психології та іншим наукам [10] . Є надія, що визнання IRT як формальної теорії допоможе зняти необґрунтовані претензії деяких представників математико-обчислювального спрямування у нинішньому практичному тестуванні на вирішення чи не всіх змістовних та загальних теоретичних завдань педагогічних вимірів. Це дорога в глухий кут, з якого вихід тільки один - назад.

Витоки МТІ (IRT)

У цьому розділі статті увага читачів звертається на сім джерел.

Перше джерело – це ідея латентних (прихованих від безпосереднього спостереження) якостей особистості. Історія виникнення таких ідей простежується, починаючи з праць Платона. І хоча цікаве якість особистості безпосередньо не спостерігається і вимірюється, воно виявляє себе ідеї понятійних і емпіричних індикаторів. У тестовій технології позитивна або негативна відповідь випробуваного на кожне завдання тесту розглядається як індикатор наявності або відсутності у нього латентної якості, що цікавить.

Майже будь-яка латентна якість особистості, що цікавить, має загальну назву «ability». Дослівний переклад з англійської як «здатність» викликає помилки розуміння. Українською мовою стосовно педагогічних вимірів цього поняття краще поставити у відповідність словосполучення «рівень підготовленості піддослідних». Приклади поширеності ідеї латентних якостей можна знайти також у поезії [13] та у художнійлітературі [14].

Третє джерело – це праці класика американської психометрики, Л. Гутмана. У його поданні завдання повинні розташовуватися на тій же числовій осі, на якій визначається рівень підготовленості піддослідних, що стимулювало пошук такого методу шкалювання, який дозволяє отримати одну загальну шкалу вимірювання, як для якості завдань, так і піддослідних. Таку шкалу пізніше отримав Г.Раш на основі розробленої ним теорії. Цим відкрилася можливість чисельно порівнювати раніше незрівнянні властивості особистості різних речей. Деякі незрівнянні поняття стали тепер порівнянними.

У тестової технології початку XX століття велике поширення набуло просте вирішальне правило: кожен випробуваний за правильне виконання завдання отримував один бал, за неправильне виконання – нуль. Після цього кожне завдання тесту стало виконувати роль чергового порога ( threshold ) зростаючої труднощі, які випробуваний намагався подолати у процесі тестування: що більше правильних відповідей, краще. Якщо мати завдання за принципом зростаючої труднощі, це сприяло появі високої кількості балів у добре підготовлених піддослідних. При відповідях іноді виникали такі вектор-рядки балів піддослідних, у яких всі нулі йшли за всіма одиницями. Такий вектор-рядок можна назвати правильним профілем підготовленості випробуваного.

Рідко у когось із випробуваних бувають правильні профілі. Неправильні профілі трапляються частіше, ніж правильні. Ті профілі, де спостерігаються одна чи кілька інверсій, логічно назвати неправильними профілями підготовленості особи. Іноді неправильні відповіді дається порівняно легкі завдання, а правильні – важкі завдання. Причин цього може бути кілька.Перша причина - це спроба вгадувати правильну відповідь у важкому завданні, у разі використання завдань з вибором однієї правильної відповіді з числа запропонованих на вибір.

При застосуванні п'яти відповідей у кожному завданні, у тому числі одна правильний, інші неправильні, ймовірність вгадування дорівнює 1/5. Це означає, що приблизно п'ята частина відповідей на всі завдання тесту може бути вгадана. Друга причина – відсутність у учнів системних знань. Ці та інші причини призводять до того, що більшість профілів виявляються неправильними. Тут, і таким чином, зокрема, виявляють помилки педагогічного виміру.

Теоретично Л.Гутмана ймовірність успішного виконання тим піддослідних, хто може виконати завдання, дорівнює одиниці. Для тих, хто не в змозі, ймовірність дорівнює нулю. На рис.1 представлений графічний образ завдання середнього рівня проблеми, яке безпомилково відрізняє тих, хто знає, від тих, хто не знає. Це приклад ідеально функціонуючого педагогічного завдання своєму рівні труднощі.

Тоді на числовій осі можна розташовувати десятки завдань зростаючої труднощі, внаслідок чого виникає ефект хорошого вимірювального пристрою, який оцінює кожного випробуваного в залежності від числа правильно виконаних завдань тесту [17].

Рис.1. Графічний образ завдання, що з теорії Гутмана.

Результатом такого роду впорядкування випробуваних (за кількістю балів) та розташування завдань у міру труднощі виходить своєрідна матриця тестових результатів, елементи якої розташовуються подібно до прямокутного трикутника. На рис. 2 усі правильні відповіді розташовуються у лівому верхньому кутку, всі неправильні – у правому нижньому кутку. Якщо при цьому всі профілі випробовуваних виявлялисяправильними, такий варіант розташування результатів Л.Гутман називавшкалограмою.