Центральная предельная теорема: определение + примеры
Центральная предельная теорема утверждает, что выборочное распределение выборочного среднего примерно нормально, если размер выборки достаточно велик, даже если распределение совокупности не является нормальным .
Центральная предельная теорема также утверждает, что выборочное распределение будет иметь следующие свойства:
1. Среднее значение выборочного распределения будет равно среднему значению распределения совокупности:
х = µ
2. Дисперсия выборочного распределения будет равна дисперсии распределения совокупности, деленной на размер выборки:
s2 = σ2 /n
Примеры центральной предельной теоремы
Вот несколько примеров, иллюстрирующих центральную предельную теорему на практике.
Равномерное распределение
Предположим, что ширина панциря черепахи равномерно распределена: минимальная ширина 2 дюйма и максимальная ширина 6 дюймов. То есть, если мы наугад выберем черепаху и измерим ширину ее панциря, она, скорее всего, также будет от 2 до 6 дюймов в ширину .
Если бы мы построили гистограмму, представляющую распределение ширины панциря черепахи, она выглядела бы так:
Среднее значение равномерного распределения равно μ = (b+a)/2, где b — максимально возможное значение, а a — наименьшее возможное значение. В данном случае это (6+2)/2 = 4.
Дисперсия равномерного распределения равна σ2 = (ba) 2/12 . В данном случае это (6-2) 2/12 = 1,33.
Взятие случайных выборок по 2 штуки из равномерного распределения
Теперь представьте, что мы берем случайную выборку из двух черепах из этой популяции и измеряем ширину панциря каждой черепахи. Предположим, что ширина панциря первой черепахи составляет 3 дюйма, а ширины второй — 6 дюймов. Средняя ширина этой выборки из двух черепах составляет 4,5 дюйма.
Далее представьте, что мы берем еще одну случайную выборку из двух черепах из этой популяции и снова измеряем ширину панциря каждой черепахи. Предположим, что панцирь первой черепахи имеет ширину 2,5 дюйма, а ширина второй тоже 2,5 дюйма. Средняя ширина этой выборки из двух черепах составляет 2,5 дюйма.
Представьте, что мы снова и снова берем случайные образцы от двух черепах и каждый раз находим среднюю ширину панциря.
Если бы мы построили гистограмму, представляющую среднюю ширину панциря всех этих образцов от двух черепах, она выглядела бы так:
Это называется выборочным распределением выборочных средних, поскольку оно показывает распределение выборочных средних.
Среднее значение этого выборочного распределения составляет x = μ = 4.
Дисперсия этого выборочного распределения составляет s2 = σ2 /n = 1,33/2 = 0,665.
Взятие случайных выборок по 5 штук из равномерного распределения
Теперь представьте, что мы повторяем тот же эксперимент, но на этот раз мы снова и снова берем случайные образцы от 5 черепах и каждый раз находим среднюю ширину панциря.
Если бы мы построили гистограмму, представляющую среднюю ширину панциря всех этих образцов пяти черепах, она выглядела бы так:
Обратите внимание, что это распределение имеет скорее колоколообразную форму, напоминающую нормальное распределение . Это связано с тем, что когда мы берем образцы из 5, разница между нашими выборочными средними намного меньше, поэтому у нас меньше шансов получить образцы со средним значением, близким к 2 дюймам или 6 дюймам, и с большей вероятностью мы получим образцы со средним значением, близким к 2 дюймам или 6 дюймам. 6 дюймов. среднее значение ближе к фактическому среднему числу населения на 4 дюйма.
Среднее значение этого выборочного распределения составляет x = μ = 4.
Дисперсия этого выборочного распределения составляет s2 = σ2 /n = 1,33/5 = 0,266.
Взятие случайных выборок по 30 штук из равномерного распределения.
Теперь представьте, что мы повторяем тот же эксперимент, но на этот раз мы снова и снова берем случайные образцы от 30 черепах и каждый раз находим среднюю ширину панциря.
Если бы мы построили гистограмму, представляющую среднюю ширину панциря всех этих образцов из 30 черепах, она выглядела бы так:
Обратите внимание, что это выборочное распределение имеет еще более колоколообразную форму и намного уже, чем два предыдущих распределения.
Среднее значение этого выборочного распределения составляет x = μ = 4.
Дисперсия этого выборочного распределения составляет s2 = σ2 /n = 1,33/30 = 0,044.
Распределение хи-квадрат
Предположим, что количество домашних животных на семью в определенном городе подчиняется распределению хи-квадрат с тремя степенями свободы. Если бы мы построили гистограмму, отражающую распределение животных по семействам, она выглядела бы так:
Среднее значение распределения хи-квадрат — это просто количество степеней свободы (df). В этом случае ц = 3 .
Дисперсия распределения Хи-квадрат равна 2 * df. В этом случае σ2 = 2 * 3 = 6 .
Взятие случайных выборок из 2
Представьте, что мы берем случайную выборку из двух семей из этой популяции и подсчитываем количество домашних животных в каждой семье. Предположим, в первой семье 4 домашних животных, а во второй — 1 домашнее животное. Среднее количество домашних животных для данной выборки из 2 семей составляет 2,5.
Затем представьте, что мы берем еще одну случайную выборку из двух семей из этой популяции и снова подсчитываем количество домашних животных в каждой семье. Предположим, в первой семье 6 домашних животных, а во второй — 4 домашних животных. Среднее количество домашних животных для данной выборки из 2 семей равно 5.
Представьте, что мы снова и снова берем случайные выборки из двух семей и каждый раз находим среднее количество домашних животных.
Если бы мы построили гистограмму, представляющую среднее количество домашних животных во всех этих выборках из двух семей, она выглядела бы так:
Среднее значение этого выборочного распределения составляет x = μ = 3.
Дисперсия этого выборочного распределения равна s2 = σ2 /n = 6/2 = 3.
Взятие случайных выборок из 10 штук
Теперь представьте, что мы повторяем тот же эксперимент, но на этот раз мы снова и снова берем случайные выборки из 10 семей и каждый раз находим среднее количество животных на семью.
Если бы мы построили гистограмму, отражающую среднее количество животных на семью во всех этих выборках из 10 семей, она выглядела бы так:
Среднее значение этого выборочного распределения составляет x = μ = 3.
Дисперсия этого выборочного распределения составляет s2 = σ2 / n = 6/10 = 0,6.
Взяв случайную выборку из 30
Теперь представьте, что мы повторяем тот же эксперимент, но на этот раз мы снова и снова берем случайные выборки из 30 семей и каждый раз находим среднее количество животных на семью.
Если бы мы построили гистограмму, отражающую среднее количество животных на семью во всех этих выборках из 30 семей, она выглядела бы так:
Среднее значение этого выборочного распределения составляет x = μ = 3.
Дисперсия этого выборочного распределения составляет s2 = σ2 / n = 6/30 = 0,2.
Краткое содержание
Вот основные выводы из этих двух примеров:
- Выборочное распределение выборочного среднего является примерно нормальным, если размер выборки достаточно велик, даже если распределение генеральной совокупности не является нормальным . В двух приведенных выше примерах ни равномерное распределение, ни распределение хи-квадрат не были нормальными (они вообще не имели формы «колокола»), но когда мы взяли достаточно большую выборку, распределение выборочного среднего превратилось в будь нормальным.
- Чем больше размер выборки, тем ниже дисперсия выборочного среднего.
Определите «достаточно большой»
Напомним, что центральная предельная теорема утверждает, что выборочное распределение выборочных средних является приблизительно нормальным, если размер выборки «достаточно велик» , даже если распределение совокупности не является нормальным.
Не существует точного определения того, насколько большой должна быть выборка, чтобы применима центральная предельная теорема, но в целом это зависит от асимметрии распределения населения, из которого формируется выборка:
- Если распределение населения симметрично, иногда достаточно небольшого размера выборки, составляющего 15 человек.
- Если распределение населения неравномерное, обычно необходима выборка размером не менее 30 человек.
- Если распределение населения крайне неравномерно, может потребоваться выборка из 40 и более человек.
Ознакомьтесь с этим руководством по подготовке большой выборки для получения дополнительной информации по этой теме.