Условие 10% в статистике: определение и пример
Испытание Бернулли — это эксперимент только с двумя возможными исходами — «успех» или «неудача» — и вероятность успеха одинакова каждый раз, когда проводится эксперимент.
Примером эссе Бернулли является подбрасывание монеты. Монета может упасть только на два орла (мы могли бы назвать орла «попаданием», а решку — «провалом»), и вероятность успеха при каждом подбрасывании равна 0,5, если предположить, что монета честная.
Часто в статистике, когда мы хотим вычислить вероятности, включающие несколько испытаний Бернулли, мы используем нормальное распределение в качестве приближения. Однако для этого мы должны предположить, что испытания независимы.
В тех случаях, когда испытания не являются действительно независимыми, мы всегда можем предположить, что они являются независимыми, если размер выборки, с которой мы работаем, не превышает 10% от размера популяции. Это называется условием 10% .
Условие 10%: пока размер выборки меньше или равен 10% размера генеральной совокупности, мы всегда можем предположить, что тесты Бернулли независимы.
Интуиция за условием 10%
Чтобы развить интуицию в отношении условия 10%, рассмотрим следующий пример.
Предположим, что истинная доля учеников определенного класса, предпочитающих футбол баскетболу, составляет 50%. Пусть случайная величина X — это количество случайно выбранных в 4 испытаниях студентов, которые предпочитают футбол баскетболу. Допустим, мы хотим понять вероятность того, что четыре случайно выбранных студента предпочтут футбол баскетболу.
Если бы размер нашего класса составлял 20 учеников и наши испытания были независимыми (например, мы могли бы взять повторные выборки от всех 20 учеников), то вероятность того, что каждый ученик предпочитает футбол баскетболу, можно рассчитать следующим образом:
P(4 ученика предпочитают футбол) = 10/20 * 10/20 * 10/20 * 10/20 = 0,0625 .
Однако если наши испытания не являются независимыми (например, если мы отберем ученика, его нельзя будет вернуть в класс), то вероятность того, что все четверо учеников предпочтут футбол, будет рассчитываться следующим образом:
P(4 ученика предпочитают футбол) = 10/20 * 9/19 * 8/18 * 7/17 = 0,0433 .
Эти две вероятности очень различны. Учтите, что в этом примере размер нашей выборки (4 студента) не меньше или равен 10% населения (20 студентов), поэтому мы не сможем использовать условие 10%.
Однако рассмотрим следующую таблицу, которая показывает вероятность того, что 4 случайно выбранных ученика предпочтут футбол, в зависимости от размера класса:
По мере того как размер выборки относительно размера популяции (например, «размер класса» в этом примере) уменьшается, расчетная вероятность между независимыми и ненезависимыми исследованиями становится все ближе и ближе.
Обратите внимание, что когда размер выборки составляет ровно 10% от размера популяции, разница между вероятностями независимых и ненезависимых испытаний относительно одинакова.
А когда размер выборки намного меньше 10% от размера популяции (например, только 0,4% от размера популяции в последней строке таблицы), вероятности между независимыми и ненезависимыми исследованиями чрезвычайно близки.
Заключение
Условие 10% гласит, что размер нашей выборки должен быть меньше или равен 10% размера генеральной совокупности, чтобы можно было с уверенностью предположить, что набор испытаний Бернулли является независимым.
Конечно, лучше всего, чтобы размер нашей выборки был значительно ниже 10% от размера генеральной совокупности, чтобы наши выводы о генеральной совокупности были максимально точными. Например, мы бы предпочли, чтобы размер нашей выборки составлял всего 5% населения, а не 10%.
Дополнительные ресурсы
Введение в нормальное распределение
Введение в биномиальное распределение
Введение в центральную предельную теорему