Комплекси (батареї) тестів - стор
4.7.3 Комплекси (батареї) тестів
У дослідницькій та спортивній практиці часто використовують не один, а кілька тестів, що мають єдину мету. Така група називається комплексом або батареєю тестів. Прийнято розрізняти два види таких комплексів: гомогенні та гетерогенні.
Гомогенними називають комплекси, що складаються з різних тестів, що оцінюють одну і ту ж властивість (наприклад, кілька різних тестів для оцінки витривалості). Результати таких тестів повинні мати високу кореляцію. Якщо результати двох або більше тестів мають високу кореляцію близьку до одиниці, вони є високою мірою гомогенними, або еквівалентними. Еквівалентні тести взаємозамінні, оскільки вони як би дублюють один одного.
Гетерогенними називають комплекси, які з тестів, оцінюють різні властивості. Наприклад, комплекс для оцінки загальної фізичної підготовленості, що складається з тестів, що оцінюють: силу, швидкість, спритність, витривалість, гнучкість. Тести, що входять до гетерогенного комплексу, не повинні мати між собою високої кореляції.
4.7.4 Критерії придатності тестів
Будь-який тест незалежно від його змісту, мети чи області застосування має бути оцінений з погляду його придатності на вирішення поставленої задачи. Найбільш загальними характеристиками, що визначають придатність тесту, є: трудність, довжина, тривалість, швидкість, надійність, інформативність. Всі ці властивості тесту можуть бути оцінені лише щодо якоїсь конкретної статистичної сукупності. Це означає, що жоден тест не має універсальної придатності, вона залежить від мети дослідження та особливостей досліджуваного контингенту (такихяк стать, вік, стан здоров'я, фізична підготовленість, кваліфікація тощо). Спочатку розглянемо перші 4 з перерахованих вище показників.
Проблема тесту (Р) характеризує його доступність для піддослідних. Кількісною характеристикою проблеми тесту для даного контингенту зазвичай служить частка осіб (відносна частота), які виконали завдання:
(1),
де m – кількість осіб, які виконали тест,
n - загальна кількість піддослідних.
Один і той же тест представляє різну труднощі для дітей і дорослих, для спортсменів і новачків і т. д. Таким чином, поняття «трудність тесту» відноситься не до окремого випробуваного (для якого тест може виявитися дуже легким або, навпаки, взагалі нездійсненним) , а до певної статистичної сукупності загалом. Якщо в одній і тій же групі осіб різні тести мають різні значення Р, це свідчить про неоднакові труднощі тестів. Якщо у різних групах одні й самі тести мають різні Р, це говорить про різної підготовленості груп.
Довжина тесту (D) залежно від його змісту може виражатися у різних заходах. Наприклад, серед спроб (кидки в баскетбольний кошик), у довжині шляху (дистанція бігу), часу виконання завдання (наприклад, за 10 секунд виконати максимальну кількість постукувань у тепінг-тесті). Таким чином, «довжина тесту» є відносним поняттям, пов'язаним з можливістю подовження або укорочення тесту.
Швидкість тесту визначається ставленням довжини тесту на час виконання D/t. Швидкість тесту може бути задана формулюванням тесту та бути однією з умов його виконання. Наприклад, педалювання на велоергометрі в темпі 60 оборотів на хвилину. Зміна швидкості тесту можлива шляхом збільшення його довжини чи тривалості. Утому та іншому випадку змінюється труднощі тесту і, як наслідок, його надійність та інформативність.
Точність результатів тестування оцінюється інакше, ніж точність вимірів. Оцінюючи точності виміру його результат порівнюється з результатом більш точного (еталонного) виміру. При тестуванні можливість такого порівняння відсутня. Тому теоретично тестів оцінюють не точність виміру, а властивості самого тесту (при цьому мається на увазі, що вимір виконується з достатньою точністю).
Теоретично тестів оцінюють не точність вимірювання, а властивості самого тесту (при цьому мається на увазі, що вимір виконується з
Порівняність результатів тестування забезпечується за рахунок дотримання стандартних умов процедури тестування, що дають можливість зіставлення результатів, отриманих при повторному тестуванні одного і того ж випробуваного або різних випробуваних між собою.
1 Повинна бути визначена мета застосування тесту.
2 Стандартність процедури (методика та умови проведення тесту мають бути однаковими у всіх випадках проведення тесту).
3 Тест повинен мати достатню надійність.
4 Тест має бути інформативним.
5. Повинна бути розроблена система оцінок результатів тесту.
Тести, які відповідають вимогам надійності та інформативності, називають автентичними (справжніми, добротними).
Розглянемо значення основних критеріїв придатності тестів.
Правильне визначення мети тестування сприяє обгрунтованому вибору тестів. Так, тестування може проводитися з метою: виявлення рівня загальної чи спеціальної фізичної, технічної, тактичної, психологічної чи функціональної підготовленості котрі займаються. У кожному з цих випадків потрібні різні тести. Крімтого, залежно від мети тестування, вимоги до властивостей тестів можуть бути різні. Наприклад, вимоги до тестів, призначених для оперативного, поточного чи етапного контролю, не однакові. Розрізняються і критерії придатності тестів, призначених для оцінки стану спортсмена та для прогнозування його досягнень на віддалене майбутнє.
Порівняність результатів тестування забезпечується за рахунок дотримання стандартних умов процедури тестування, що дають можливість зіставлення результатів, отриманих при повторному тестуванні одного і того ж випробуваного або різних випробуваних між собою. Дотримання цієї вимоги досягається при виконанні наступних умов:
схема виконання тесту має бути постійною від одного тестування до іншого;
умови, у яких виконується кожне тестування, мають бути, по можливості, однаковими;
режим дня, що передує тестуванню, повинен бути для всіх піддослідних однаковий;
розминка перед виконанням тесту (якщо вона необхідна) має бути завжди стандартною.
Тестування, по можливості, повинні проводити ті самі особи:
інтервали між повторними спробами виконання тесту повинні бути достатніми для відновлення стану випробуваного після попередньої спроби;
якщо результат тесту вимагає прояву максимальних можливостей випробуваного, він має прагнути показати цей максимум.
4.7.5 Надійність тесту
Для того щоб за результатами тесту можна було з достатньою впевненістю розрізняти між собою двох (або більше) піддослідних, або говорити про те, що результати двох вимірювань однієї і тієї ж людини, що не співпадають, свідчать про зміну його стану, тест повинен мати надійність.
Піднадійністю тесту розуміється здатність давати постійні результати при повторному вимірі тих самих осіб, що у тому самому стані. Через низку причин жоден тест не може дати абсолютного збігу результатів при повторному вимірі.
Теорія надійності тестів виходить з того, що результат будь-якого вимірювання, що проводиться на людині, – X – сума трьох величин:
(2), (1),
де Xo – справжнє значення вимірюваної величини, яке хочемо зафіксувати;
Xe - помилка, викликана коливаннями в стані випробуваного;
Xm – помилка, яка приноситься вимірювальним приладом*.
*Теорія тестів виходить із припущення, що Xm набагато менше, ніж Xe, тому значенням Xm, як правило, нехтують. Вочевидь, що це припущення має бути обгрунтованим, т. е. необхідна виконання цієї умови точність виміру має бути забезпечена.
Причини, що знижують надійність тесту, такі:
зміна стану піддослідних (втома, впрацьованість та ін);
неконтрольовані зміни зовнішніх умов та апаратури (зміна температури, вологості повітря, швидкості вітру, атмосферного тиску, коливання напруги в мережі вимірювальних приладів та ін.);
зміна стану особи, яка проводить вимір (або заміна її іншою особою);
недосконалість самого тесту (наприклад, кидки м'яча до баскетбольного кошика до першого промаху).
Насправді всі ці причини можуть діяти спільно, але частка їхнього впливу у кожному даному випадку може бути різною. Без спеціальних прийомів оцінити окремо вплив кожної причин неможливо. Отже, неможливо з достатньою для ухвалення практичного рішення ймовірністю винести судження про те, чим викликано розбіжністьрезультатів двох або більше виконаних вимірів поспіль, зміною стану піддослідного або впливом другої, третьої або четвертої причин. Аналогічна ситуація виникає, якщо необхідно зіставити результати тесту в різних піддослідних, якщо за повторних вимірах їх результати (і їхні ранги) змінюються. Зрозуміти, що є причиною цих змін без спеціального аналізу неможливо, так само як неможливо з упевненістю судити про те, у кого з випробовуваних виміряна якість вища.
Природно, що не всі тести мають достатню надійність, більше того, той самий тест у різних умовах і на різному контингенті піддослідних може мати різну надійність. Таким чином, поняття «надійність тесту» може належати до різних аспектів. Залежно від того, яка з причин, що знижують надійність тесту, є основною, надійність тесту можна розділити на кілька різновидів: відтворюваність, стабільність і узгодженість.
Відтворюваність тесту та способи її оцінки
Під відтворюваністю тесту розуміють ступінь збігу результатів повторного тестування одних і тих же осіб, що знаходяться в тому самому стані, отриманих одним і тим же дослідником при мінімальному часовому інтервалі між першим і другим вимірами. Найчастіше говорячи про надійність тесту, мають на увазі саме його відтворюваність.
В принципі, при оцінці відтворюваності тесту дослідника можуть цікавити два питання: чи змінюються ранги піддослідних від першого до другого виміру (тобто їх становище групи відносно один одного) і чи змінюється рівень результату від першого до другого виміру.
Найпростіший спосіб відповіді на перше питання полягає у обчисленні коефіцієнта кореляції між двома повторними вимірами, проведенимина одній і тій же вибірці (n 20). Ця процедура називається "тест-ретест метод". Перше вимір називають тестом, а друге – ретестом. Отриманий при цьому коефіцієнт позначається rtt і є кількісною мірою відтворюваності тесту.
Загальноприйнятих критеріїв надійності немає, проте можна використовувати такі градації оцінки:
0,95 та > – відмінна надійність 0,90–0,95 – висока,