Что такое условие «пройдено/не пройдено» в статистике?
Испытание Бернулли — это эксперимент только с двумя возможными исходами — «успех» или «неудача» — и вероятность успеха одинакова каждый раз, когда проводится эксперимент.
Примером эссе Бернулли является подбрасывание монеты. Монета может упасть только на два орла (мы могли бы назвать орла «попаданием», а решку — «провалом»), и вероятность успеха при каждом подбрасывании равна 0,5, если предположить, что монета честная.
Часто в статистике, когда мы хотим вычислить вероятности, включающие несколько испытаний Бернулли, мы используем нормальное распределение в качестве приближения. Однако для этого нам нужно проверить, что условие «пройдено/не пройдено» выполнено:
Условие «пройдено/не пройдено». Чтобы использовать нормальное распределение в качестве приближения, в выборке должно быть не менее 10 ожидаемых успехов и 10 ожидаемых неудач.
Написано в нотации, нам нужно проверить следующие две вещи:
- Ожидаемое количество успехов не менее 10: np ≥ 10.
- Ожидаемое количество отказов не менее 10: n(1-p) ≥ 10.
где n — размер выборки, а p — вероятность успеха данного испытания.
Примечание. Вместо этого в некоторых руководствах говорится, что для использования нормального приближения необходимо только 5 ожидаемых успехов и 5 ожидаемых неудач. Однако 10 используется чаще и является более консервативным числом. Поэтому мы будем использовать это число в этом уроке.
Пример: Проверка состояния «годен/не годен»
Предположим, мы хотим создать доверительный интервал для доли жителей округа, поддерживающих определенный закон. Мы выбираем случайную выборку из 100 жителей и спрашиваем их, какова их позиция по закону. Вот результаты:
- Размер выборки n = 100
- Доля в пользу закона p = 0,56
Мы хотели бы использовать следующую формулу для расчета доверительного интервала:
Доверительный интервал = p +/- z*√ p(1-p) / n
Золото:
- p: доля выборки
- z: значение z, соответствующее нормальному распределению.
- n: размер выборки
В этой формуле используется значение az из нормального распределения. Итак, в этой формуле мы используем нормальное распределение для аппроксимации биномиального распределения.
Однако для этого нам необходимо убедиться, что условие «пройдено/не пройдено» . Проверим, чтобы количество успехов и количество неудач в выборке было не меньше 10:
Количество успехов: np = 100*.56 = 56
Количество отказов: n(1-p) = 100*(1-.56) = 44
Оба числа равны или больше 10, поэтому мы можем использовать приведенную выше формулу для расчета доверительного интервала.
Дополнительные ресурсы
Еще одно условие, которое необходимо выполнить, чтобы использовать нормальное распределение в качестве приближения к биномиальному распределению, заключается в том, что размер выборки, с которой мы работаем, не превышает 10% от размера генеральной совокупности. Это называется условием 10%.
Также имейте в виду, что если вы работаете с двумя пропорциями (например , создаете доверительный интервал для разницы между пропорциями ), вам необходимо убедиться, что ожидаемое количество успехов и неудач в двух выборках составляет не менее 10.