Що таке міжрейтерська надійність? (визначення & #038; приклад)
У статистиці надійність між оцінювачами — це спосіб вимірювання рівня згоди між кількома оцінювачами або суддями.
Він використовується для оцінки надійності відповідей, отриманих різними елементами тесту. Якщо тест має нижчу надійність між оцінювачами, це може означати, що тестові завдання заплутані, незрозумілі або навіть некорисні.
Існує два поширених способи вимірювання надійності між оцінювачами:
1. Відсоток згоди
Простий спосіб вимірювання надійності між оцінювачами полягає в тому, щоб обчислити відсоток питань, з якими судді погоджуються.
Це називається відсотковою згодою , яка завжди знаходиться між 0 і 1, де 0 означає відсутність згоди між оцінювачами, а 1 означає повну згоду між оцінювачами.
Наприклад, припустімо, що двох суддів просять оцінити складність 10 завдань тесту за шкалою від 1 до 3. Результати наведені нижче:
Для кожного запитання ми можемо написати «1», якщо обидва судді згодні, і «0», якщо вони не згодні.
Відсоток запитань, щодо яких судді погодилися, становив 7/10 = 70% .
2. Каппа Коена
Найважчим (і найсуворішим) способом вимірювання надійності між оцінювачами є використання Каппа Коена , який обчислює відсоток елементів, з якими оцінювачі погоджуються, враховуючи при цьому, що оцінювачі можуть погоджуватися лише щодо певних елементів. На щастя.
Формула каппа Коена розраховується наступним чином:
k = (p o – p e ) / (1 – p e )
золото:
- p o : Відносна згода між оцінювачами
- p e : Гіпотетична ймовірність випадкової згоди
Каппа Коена завжди коливається від 0 до 1, де 0 означає відсутність згоди між оцінювачами, а 1 означає повну згоду між оцінювачами.
Для покрокового прикладу того, як обчислити капу Коена, перегляньте цей підручник .
Як інтерпретувати міжрейтерську надійність
Чим вища надійність між оцінювачами, тим послідовніше кілька суддів оцінюють предмети або запитання в тесті з однаковими балами.
Загалом, для того, щоб тест вважався надійним, у більшості областей потрібна згода між оцінювачами щонайменше на 75%. Однак у певних областях може знадобитися більш висока надійність між оцінювачами.
Наприклад, надійність між оцінювачами 75% може бути прийнятною для тесту, щоб визначити, наскільки добре буде сприйнята телевізійна програма.
З іншого боку, 95% надійність між оцінювачами може знадобитися в медичних установах, у яких кілька лікарів вирішують, чи слід застосовувати певне лікування для даного пацієнта.
Зауважте, що в більшості академічних закладів і галузей ретельних досліджень Каппа Коена використовується для розрахунку надійності між оцінювачами.
Додаткові ресурси
Короткий вступ до аналізу надійності
Що таке надійність, поділена на дві частини?
Що таке тест-повторна надійність?
Що таке надійність паралельних форм?
Що таке стандартна похибка вимірювання?
Каппа-калькулятор Коена