Уровень доверия и доверительный интервал: в чем разница?
Часто в статистике мы стремимся измерить параметры населения – числа, которые описывают определенные характеристики всего населения .
Например, нас может заинтересовать измерение среднего роста мужчин в определенной стране.
Поскольку собирать данные о росте каждого мужчины в стране слишком дорого и отнимает много времени, вместо этого мы будем собирать данные о простой случайной выборке мужчин. Затем мы бы использовали средний рост мужчин в этой выборке, чтобы оценить средний рост всех мужчин в стране.
К сожалению, не гарантируется, что средний рост мужчин в выборке точно соответствует среднему росту мужчин во всей популяции. Например, мы можем выбрать выборку мужчин невысокого роста или, возможно, выборку мужчин более высокого роста.
Чтобы уловить нашу неопределенность в отношении оценки истинного среднего значения численности населения, мы можем создать доверительный интервал.
Доверительный интервал: диапазон значений, который может содержать параметр совокупности с определенным уровнем достоверности.
Доверительный интервал рассчитывается по следующей общей формуле:
Доверительный интервал = (точечная оценка) +/- (критическое значение)* (стандартная ошибка)
Например, формула для расчета доверительного интервала для среднего значения совокупности :
Доверительный интервал = x +/- z*(s/√ n )
Золото:
- x : выборочное среднее
- z: критическое значение z
- s: выборочное стандартное отклонение
- n: размер выборки
Критическое значение z, которое вы используете в формуле, зависит от выбранного вами уровня достоверности .
Уровень уверенности: процент всех возможных выборок, которые, как ожидается, будут включать истинный параметр генеральной совокупности.
Наиболее распространенными вариантами уровней достоверности являются 90%, 95% и 99%.
В следующей таблице показано критическое значение z, соответствующее этим популярным вариантам уровня достоверности:
Уровень доверия | критическое значение z |
---|---|
0,90 | 1645 |
0,95 | 1,96 |
0,99 | 2,58 |
Например, предположим, что мы измерили рост 25 мужчин и обнаружили следующее:
- Размер выборки n = 25
- Средняя высота образца x = 70 дюймов
- Выборочное стандартное отклонение s = 1,2 дюйма
Вот как можно рассчитать доверительный интервал для истинной средней численности населения, используя уровень достоверности 90 % :
90% доверительный интервал: 70 +/- 1,645*(1,2/√25) = [69,6052, 70,3948]
Это означает, что если бы мы использовали один и тот же метод выборки для отбора разных выборок и рассчитали доверительный интервал для каждой выборки, мы бы ожидали, что истинный средний размер популяции попадет в этот интервал в 90% случаев.
Теперь предположим, что вместо этого мы вычисляем доверительный интервал, используя уровень достоверности 95%:
95% доверительный интервал: 70 +/- 1,96*(1,2/√25) = [69,5296, 70,4704]
Обратите внимание, что этот доверительный интервал шире предыдущего. Действительно, чем выше уровень доверия, тем шире доверительный интервал.
Чем выше уровень доверия, тем шире доверительный интервал.
Это должно иметь интуитивный смысл: более широкий уровень достоверности имеет более высокую вероятность содержать истинный параметр совокупности.
Краткое содержание
В итоге:
Доверительный интервал — это диапазон значений, который может содержать параметр совокупности с определенным уровнем достоверности. Он использует следующую базовую формулу:
Доверительный интервал = (точечная оценка) +/- (критическое значение)* (стандартная ошибка)
Уровень достоверности определяет критическое значение, используемое в этой формуле. Чем выше уровень достоверности, тем больше критическое значение и, следовательно, шире доверительный интервал.
Дополнительные ресурсы
Введение в доверительные интервалы
Введение в проверку гипотез
Что такое точечная оценка?