Валідність та надійність вимірювань - Мурзим

На результати вимірювань у маркетингових дослідженнях, які проводяться в основному шляхом опитувань чи спостережень, впливає низка факторів.

- дійсні відмінності у вимірюваних характеристиках.

- Відмінності в інших щодо стабільних характеристик респондентів: наприклад, деякі дають хороші відповіді, або ніяких.

- змінні фактори: настрій, стан здоров'я, втома, хвороба.

- ситуаційні фактори. На питання про роль чоловіка та дружини у покупці автомобіля чоловік скаже одне, дружина – інше, вони разом – третє.

- Характеристики інтерв'юера та його поведінка.

- Формулювання питань анкети. Наприклад, у поняття «велика людина» входить зростання, вага, обсяг талії і, можливо, ще щось?

- Похибки інструменту виміру: складні, двозначні питання, незрозумілі для інтерв'юера моменти.

- механічні фактори (наприклад, зламаний олівець).

де Xo – результати спостережень чи вимірів; Xt – справжня відмінність у характеристиках; Xs - систематична (постійна) помилка; Xr – випадкова помилка.

Валідність (точність, правильність) це ступінь, в якому різниця в результатах відображає дійсну різницю вимірюваних параметрів, а не помилки. Валідність означає, що Xo = Xt.

Передбачувана валідність наголошує на цінність інструменту для передбачення деякої характеристики або поведінки. Для перевірки цієї валідності потрібно оцінити кореляцію між результатами тесту та передбачуваною характеристикою. Наприклад, успішно минулі тест професійної придатності повинні добре працювати.

Валідність збігу – відповідність вимірюваного та фактичного параметра на даний момент часу. Наприклад, температура хворого була вимірянаточно.

Валідність змісту. Це адекватність, з якою вимірюються показники. Наприклад, правописний тест, що включає тільки хокейні терміни, швидше за все, виявить відношення до хокею, а не грамотність.

Валідність стосовно конструкцій визначає, яка конструкція, ідея, концепція вимірюється. Концепція визначається через набір атрибутів, що спостерігаються. Наприклад, для визначення задоволеності роботою вимірюється не сама ця задоволеність, а очікувані перспективи підвищення на посаді, ставлення до величини заробітної плати, відносини з керівництвом та ін.

Валідність конвергенції та валідність відмінності визначають, відповідно, що те, що має збігатися, збігається, а те, що має відрізнятися – відрізняється. Наприклад, є гіпотеза про зв'язок плинності кадрів із задоволеністю роботою. Передбачається, що й задоволеність роботою висока, то плинність кадрів низька і навпаки. Результати вимірювання плинності кадрів та задоволеності роботою повинні відображати цю залежність: на всіх підприємствах, де високий рівень задоволеності роботою, має бути низька плинність кадрів. Якщо одному підприємстві ступінь задоволеності роботою висока, але в іншому низька, повинна також відрізнятися і плинність кадрів.

Часто валідність оцінюється опосередковано через надійність, оскільки надійність легше виміряти.

Надійність це відсутність випадкової помилки у вимірах. Надійність означає, що Xr=0.

Оскільки Xo=Xt+Xs+Xr, вимір може бути надійним, але не валідним. У той же час, валідність автоматично означає надійність. Таким чином,

- з валідності випливає надійність;

- з ненадійності випливає невалідність.

Для перевірки надійності визначаються стабільність та еквівалентність.

Стабільність - це повторюваність результатів досліджень, проведених повторно.

Іноді інтерв'юер наприкінці опитування повторює критичні питання. Він зазвичай каже:

– Давайте перевіримо, чи правильно я записав.

Насправді, перевіряється стабільність відповідей респондента.

Дослідження стабільності – досить складне завдання. Якщо опитування повторити через короткий час, то респонденти пам'ятатимуть попереднє опитування, що спотворить картину. Якщо ж час між опитуваннями занадто великий, то цей час змінюється сама контрольована характеристика.

Еквівалентність є більш придатною для оцінки надійності. Нехай кілька питань мають належати до однієї й тієї самої характеристики. Потрібно це перевірити. Для такої перевірки може використовуватися метод поділу навпіл. Набір питань поділяється на дві частини (випадково або за принципом парних/непарних). Щодо збігу відповідей на кожну половину питань судять про внутрішню спроможність тесту. Щоправда, цей метод використовується досить рідко. Причина цього видно з прикладу. Нехай оцінюється надійність тесту для перевірки знань студентів. Він проходить у двох групах. Середній бал при відповідях становив 3. Однак у одній групі всі отримали 3, а інший – половина отримала 4, а половина – 2. Це був невдалий поділ. Таким чином, метод розподілу навпіл не дає гарантії надійності тесту.

На закінчення слід зазначити, що методи аналізу надійності досліджують лише величину випадкової складової, не торкаючись систематичної помилки.