Состояние большой выборки: определение и пример
В статистике мы часто хотим использовать выборки , чтобы сделать выводы о популяциях посредством проверки гипотез или доверительных интервалов .
Большинство формул, которые мы используем при проверке гипотез и доверительных интервалах, предполагают, что данная выборка примерно соответствует нормальному распределению .
Однако, чтобы безопасно сформулировать эту гипотезу, нам необходимо убедиться, что размер нашей выборки достаточно велик. В частности, нам необходимо обеспечить выполнение условия большой выборки .
Условие большой выборки: размер выборки составляет не менее 30 человек.
Примечание. В некоторых учебниках «достаточно большой» размер выборки определяется как минимум 40, но чаще используется число 30.
При выполнении этого условия можно предположить, что выборочное распределение выборочных средних примерно нормальное. Это предположение позволяет нам использовать выборки, чтобы делать выводы о популяциях, из которых они взяты.
Причина, по которой используется число 30, основана на центральной предельной теореме. Вы можете прочитать больше об этом в этом сообщении в блоге .
Пример: Проверка статуса большой выборки
Предположим, некая машина создает крекеры. Распределение веса этих файлов cookie смещено вправо со средним значением 10 унций и стандартным отклонением 2 унции. Если мы возьмем простую случайную выборку из 100 штук печенья, произведенных этой машиной, какова вероятность того, что средний вес печенья в этой выборке составит менее 9,8 унций?
Чтобы ответить на этот вопрос, мы можем использовать обычный калькулятор CDF , но сначала нам нужно убедиться, что размер выборки достаточно велик, чтобы предположить, что распределение среднего выборочного значения является нормальным.
В этом примере размер нашей выборки равен n = 100 , что намного больше 30. Несмотря на то, что истинное распределение веса файлов cookie смещено вправо, поскольку размер нашей выборки «достаточно велик», мы можем предположить, что распределение выборочного среднего значения является нормальным. Поэтому мы могли бы смело использовать обычный калькулятор CDF для решения этой проблемы.
Изменения состояния крупных образцов
Часто размер выборки считается «достаточно большим», если он больше или равен 30, но это число может незначительно варьироваться в зависимости от основной формы распределения населения.
Особенно:
- Если распределение населения симметрично, иногда достаточно небольшого размера выборки, составляющего 15 человек.
- Если распределение населения неравномерное, обычно необходима выборка размером не менее 30 человек.
- Если распределение населения крайне неравномерно, может потребоваться выборка из 40 и более человек.
В зависимости от формы распределения населения вам может потребоваться размер выборки больше или меньше 30, чтобы применить центральную предельную теорему.
Дополнительные ресурсы
Введение в центральную предельную теорему
Введение в выборочные распределения