Что такое надежность между экспертами? (определение & #038; пример)
В статистике надежность между экспертами — это способ измерения уровня согласия между несколькими экспертами или судьями.
Он используется для оценки надежности ответов, полученных по различным заданиям теста. Если тест имеет более низкую надежность между экспертами, это может указывать на то, что элементы теста сбивают с толку, неясны или даже бесполезны.
Существует два распространенных способа измерения надежности между экспертами:
1. Процент согласия
Самый простой способ измерить надежность между экспертами — это подсчитать процент пунктов, по которым судьи согласны.
Это называется процентным согласием , которое всегда находится в диапазоне от 0 до 1, где 0 указывает на отсутствие согласия между оценщиками, а 1 указывает на полное согласие между оценщиками.
Например, предположим, что двух судей просят оценить сложность 10 заданий теста по шкале от 1 до 3. Результаты показаны ниже:
По каждому вопросу мы можем написать «1», если оба судьи согласны, и «0», если они не согласны.
Процент вопросов, по которым судьи согласились, составил 7/10 = 70% .
2. Каппа Коэна
Самый сложный (и наиболее строгий) способ измерения надежности между оценщиками — использовать каппу Коэна , которая рассчитывает процент пунктов, по которым оценщики согласны, принимая во внимание, что оценщики могут прийти к согласию только по определенным элементам. К счастью.
Формула каппы Коэна рассчитывается следующим образом:
k знак равно (п о – п е ) / (1 – п е )
Золото:
- p o : Относительное согласие, наблюдаемое среди оценщиков
- p e : Гипотетическая вероятность случайного соглашения.
Каппа Коэна всегда находится в диапазоне от 0 до 1, где 0 указывает на отсутствие согласия между оценщиками, а 1 указывает на полное согласие между оценщиками.
Пошаговый пример расчета каппы Коэна смотрите в этом уроке .
Как интерпретировать надежность между экспертами
Чем выше надежность между экспертами, тем более последовательно несколько судей оценивают элементы или вопросы теста с одинаковыми оценками.
В целом, чтобы тест считался надежным, в большинстве областей требуется согласие между экспертами не менее 75%. Однако в конкретных областях может потребоваться более высокая межэкспертная надежность.
Например, межэкспертная надежность 75% может быть приемлемой для теста, позволяющего определить, насколько хорошо будет принята телевизионная программа.
С другой стороны, 95%-ная надежность между экспертами может потребоваться в медицинских учреждениях, где несколько врачей решают, следует ли использовать определенное лечение для данного пациента.
Обратите внимание, что в большинстве академических и строгих исследовательских областей каппа Коэна используется для расчета межэкспертной надежности.
Дополнительные ресурсы
Краткое введение в анализ надежности
Что такое надежность, разделенная на две части?
Что такое ретестовая надежность?
Что такое надежность параллельных форм?
Что такое стандартная ошибка измерения?
Калькулятор каппа Коэна