Валідність. У рівній мірі дуже важливим є поняття валідності, що є точністю вимірювання

У рівній мірі дуже важливим є поняття валідності, що є точністю вимірювання. Щоб бути точною, будь-яка вимірювальна система має вимірювати саме те, навіщо вона призначена. Якщо вимірювальна система має високу міру достовірності, але не забезпечує отримання точних результатів, її валідність вважається низькою, і, незважаючи на високу достовірність, у неї погана якість вимірювань. Валідність тесту - виключно важливий оціночний критерій. Перш ніж застосовувати на практиці певний тест, той, хто займається відбором, повинен упевнитися у валідності цього тесту, провівши точні вимірювання його невід'ємної ознаки (або ознак). Це дуже відповідальний момент, оскільки прогноз майбутньої поведінки кандидата на роботі виходить з результатів таких тестів. Наприклад, розглянемо використання в процесі відбору поліграфа (детектора брехні) для перевірки чесності кандидатів. У 1986 році було проведено експеримент: дослідники тестували на детекторі брехні 1000 осіб. 500 із них мали говорити правду, а 500 — брехати. Поліграф показав, що 185 осіб із групи тих, хто говорить правду, брехали, а 120 осіб із групи «брехунів» говорили правду. Ці результати показують, що валідність поліграфа як засобу виміру чесності не є бездоганною. Детектор брехні може бути абсолютно достовірним і показувати однакові результати щоразу при виконанні тесту однією і тією самою людиною. Але він не є валідним, тому що дає неправильні результати та не вимірює чесність із бездоганною точністю.

Строго кажучи, визнання правильності - валідність - відноситься швидше до інтерпретації показників, отриманих в результаті якого-небудь тесту або методу відбору, ніж до інтерпретації самих тестів або процедур відбору.Це центральна проблема, оскільки тест може бути валідним при вимірі чогось одного і не бути валідним при вимірі іншого. Наприклад, розробники відбірних тестів для програмістів-стажистів зазвичай намагаються оцінити математичні здібності тестованих, щоб передбачити, як вони будуть справлятися зі своєю майбутньою роботою. Однак оскільки сучасне програмування вимагає насамперед вищих рівнів здібностей до словесно-логічного мислення, а потім математичних здібностей (Пенней і Лазарини (Penney and Lazzarini), 1979), такі тести неспроможні відбору комп'ютерних програмістів. Проте вони можуть бути валідними при оцінці кандидатів, які претендують на вакансії, для яких важливі математичні здібності. Отже, валідність здійсненна лише у тісному зв'язку з цілями, заради яких застосовувався тест.

Найвідомішими дефініціями валідності є: змістовна достовірність, конструктивна достовірність та достовірність, пов'язана з критерієм. Кожна з них сама по собі оціночний критерій. Потрібно визнати, що тест або метод відбору повинен мати всі три типи валідності. Змістовну достовірність часто поділяють на два окремих аспекти: зовнішню достовірність та змістовну достовірність.Зовнішня достовірність- це сприйняття самих кандидатів, наскільки правильно проводяться виміри під час тестування. Сама собою зовнішня достовірність насправді взагалі є типом валідності. Деякі дослідники стверджують, що зовнішня валідність не має значення (див. Мозьєр (Mosier), 1947, повне висвітлення дискусії), але насправді вона має дуже велике практичне значення, оскільки часто стає причиною, через яку або компанія чи кандидати відбраковують тест.Передбачається, що, незважаючи на низьку валідність спеціальних інтерв'ю, вони широко застосовуються саме через зовнішню достовірність.Змістовна достовірністьяк така вирішує проблему відбору зразків, що мають відношення до процесу вимірювання. Зміст будь-якого виміру може бути візуалізовано у вигляді вибірки питань, завдань або типів поведінки, що відображають структуру, що вимірюється. Забезпечення змістовної достовірності – двофазовий процес. Перша фаза фокусується на питанні, чи відбиває метод відбору всі відомі характеристики аналізованої роботи (наприклад навичка міжособистісних відносин, екстраверсія). Зазвичай цього досягають, порівнюючи вимірювальний інструмент та кваліфікаційні вимоги та вимоги до персоналу, розроблені на основі аналізу змісту роботи. Друга фаза оцінює, наскільки точно всі завдання вимірювального інструмента відображають відмінні риси того, що вимірюється. Наприклад, якщо тест призначений для вимірювання загальних математичних здібностей, але не включає завдань зі складання або віднімання, його змістовна Достовірність буде низькою. Але якщо цей же тест розроблявся тільки для вимірювання здібностей кандидата до множення та поділу, достовірність його змісту може бути високою.

Потенційно конструктивна достовірність є найкориснішим типом валідності, але в той же час вона, як правило, найневизначеніший і найскладніший з усіх типів валідності. Кронбах і Міл (Cronbach and Meehl) (1955) визначають конструкцію - або узагальнений уявний образ - як "якийсь постульований атрибут людини, імовірно відображається у виконанні тесту". Як такий, цей тип валідності намагається відповісти на запитання: «У чому полягає психологічний зміст цих показників і як ці показники співвідносяться з іншими вимірами?»Отже, конструктивна достовірність має справу зі ступенем відповідності передбачуваного образу та реальності. Візьмемо, наприклад Job Choice Exercise, розроблений Майклом Сталом (Michael Stahl) у 1983 році та застосований компанією Greatplay Inc. виявлення ознак управлінської мотивації. Управлінська мотивація не є якоюсь фізичною сутністю, це просто ярлик, що застосовується для опису інтенсивності та спрямованості поведінки, що складається з двох образів: Потреби Влади (NPow) – описової назви, що відображає потребу впливати на інших, та Потреби Успіху (NAch) – описової назви, відображає потребу ставити цілі та досягати їх. Щоб визначити конструктивну достовірність, Стал перевірив гіпотезу, що людина, що має високу управлінську мотивацію, отримає високі показники на шкалах NPow і NAch, і навпаки, показники людини з низькою управлінською мотивацією будуть низькими. Він виміряв показники 1417 респондентів різних професій — і «синіх комірців», і управлінського персоналу, які працюють у різних галузях. Він виявив, що ті, хто отримали високі показники на шкалах NPow і NAch, мали більший темп просування по службі, ніж показники, які були низькими. Власники високих показників більшою мірою виявлялися лідерами, ніж володарі низьких показників; серед перших виявилося більше менеджерів, аніж серед других. На підставі цих результатів ми можемо зробити висновок, що образ управлінської поведінки має значний ступінь довіри. Отже, Стал по суті відчував конструктивну достовірність ідеї, що ховається за тестом, а не сам тест. Однак, як і в цьому випадку, часто досить важко розділити свідчення валідності, що забезпечуються цим підходом,свідоцтв достовірності, пов'язаної з критерієм. Більш рельєфний метод встановлення конструктивної достовірності знову розробленого тесту полягає в кореляції показників нового тесту з показниками заслуговує на довіру тесту, що точно відображає даний образ. Наприклад, конструктивна достовірність тесту на екстраверсію може бути встановлена шляхом кореляції нового вимірювання екстраверсії з визнаним тестом на екстраверсію. Конструктивна достовірність вимірювання також може бути визначена статистичними методами, такими як дослідницький та факторний аналіз, що підтверджує, за допомогою комп'ютерних програм. Але ці методики виходять за межі дослідження нашої книги; читач, що цікавиться цими питаннями, може звернутися до робіт Джорескога і Сорбома (Joreskog and Sorbom) (1988), Бентлера (Bentler) (1989) або Фергюсона і Кокса (Ferguson and Cox) (1993).

Поінформованість про конструктивну достовірність тесту може також допомогти в оцінці достовірності, пов'язаної з критерієм. Як було продемонстровано на прикладі компанії Greatplay Inc., достовірність, пов'язана з критерієм, стосується відносин між тестом, що застосовується, і виконанням роботи за якимось критерієм (наприклад виконанням виробничих завдань). Прогнозуюча достовірність показує, наскільки певний тест пов'язані з подальшим виконанням роботи. Але визначення прогнозуючої достовірності нового тесту може містити певну частку ризику і коштуватиме досить дорого. Припустимо, компанія Greatplay Inc. розробила новий тест визначення управлінської Мотивації та найняла працівників, ґрунтуючись на результатах тесту; а через деякий час представники компанії вирішили оцінити, як виконав роботу кожен із приємних працівників, і співвіднести отримані показники зпочатковими результатами. Припустимо, вони одержали низьку кореляцію. Так як відповідність між початковим тестом та показниками виконання роботи є ознакою прогнозуючої достовірності тесту, Greatplay Inc. виявить, що найняла багато невідповідних кандидатів. У цьому полягає ризик, який багато компаній не хочуть йти через високих витрат. Практичний спосіб подолання цієї проблеми полягає в тому, щоб запропонувати всім кандидатам новий тест, але при цьому вибрати кандидатів на підставі інших методів, що вкорінилися. Через деякий час потрібно порівняти показники виконання роботи успішними кандидатами з їх показниками, отриманими при виконанні нового тесту. Якщо кореляція виявиться високою, показавши, що новий тест має високу прогнозну достовірність, цей тест можна використовувати в наступних процедурах відбору. Звісно, підсумковий коефіцієнт валідності вплине як на точність нового тесту, а й у засоби вимірювання виконання роботи. Це дуже важливо, оскільки часто великі зусилля спрямовані на те, щоб зробити новий тест точним, а засоби вимірювання виконання роботи майже ігноруються.

Ще одна процедура оцінки достовірності, пов'язаної з критерієм, — встановлення достовірності, що узгоджується. Це спосіб передбачає застосування методів відбору до існуючих працівників та вимірювання їх поточного виконання роботи. Потім ці два показники звіряються один з одним. Переваги цього методу полягають у швидкості встановлення валідності вимірювання та у менших витратах. Однак цей метод має свої недоліки: по-перше, реальні працівники мають нижчу мотивацію, ніж потенційні, і тому можуть відповідати некоректно, що може призвести до невірної оцінки коефіцієнта валідності;по-друге, реальні працівники, швидше за все, добре виконують свою роботу, інакше вони перейшли б на іншу або покинули б компанію. Це означає, що, можливо, діапазон отриманих показників тесту буде обмежений, що майже завжди має результат нижчий коефіцієнт валідності, ніж він є насправді. Цю проблему можна вирішити з допомогою математичних формул (див. Сміт і Робертсон, 1993а). Особливий тип узгодженої достовірності, здатний подолати ці труднощі, -методика номінованих груп,що базується на використанні двох груп людей з різними характеристиками, що підлягають виміру. Наприклад, це група сумлінних працівників зі стажем, які мають хороші показники виходів на роботу, та група молодих працівників. Розроблений тест на сумлінність можна випробувати цих групах. Вимірювання буде ефективним, якщо результати покажуть чітку різницю показників цих груп, з вищими показниками групи старших працівників. Якщо між показниками обох груп взагалі не буде жодної різниці, вимір не можна визнати достовірними.