Центральна гранична теорема: визначення + приклади
Центральна гранична теорема стверджує, що вибірковий розподіл вибіркового середнього є приблизно нормальним, якщо розмір вибірки достатньо великий, навіть якщо розподіл сукупності не є нормальним .
Центральна гранична теорема також стверджує, що вибірковий розподіл матиме такі властивості:
1. Середнє значення розподілу вибірки дорівнюватиме середньому значенню розподілу сукупності:
x = µ
2. Дисперсія розподілу вибірки дорівнюватиме дисперсії розподілу сукупності, поділеній на розмір вибірки:
s2 = σ2 /n
Приклади центральної граничної теореми
Ось кілька прикладів для ілюстрації центральної граничної теореми на практиці.
Рівномірний розподіл
Припустимо, що ширина панцира черепахи рівномірно розподілена з мінімальною шириною 2 дюйми та максимальною шириною 6 дюймів. Тобто, якщо ми навмання виберемо черепаху та виміряємо ширину її панцира, вона також, імовірно, буде від 2 до 6 дюймів завширшки .
Якби ми зробили гістограму для представлення розподілу ширини панцира черепахи, вона виглядала б так:
Середнє рівномірного розподілу дорівнює μ = (b+a) / 2, де b — найбільше можливе значення, а a — найменше можливе значення. У цьому випадку це (6+2) / 2 = 4.
Дисперсія рівномірного розподілу становить σ2 = (ba) 2/12 . У цьому випадку це (6-2) 2/12 = 1,33
Взяття випадкових вибірок з 2 з рівномірного розподілу
А тепер уявіть, що ми беремо випадкову вибірку з 2 черепах із цієї популяції та вимірюємо ширину панцира кожної черепахи. Припустимо, що панцир першої черепахи має ширину 3 дюйми, а ширина другої — 6 дюймів. Середня ширина цього зразка з 2 черепах становить 4,5 дюйма.
Далі уявіть, що ми беремо ще одну випадкову вибірку з 2 черепах із цієї популяції та знову вимірюємо ширину панцира кожної черепахи. Припустимо, що панцир першої черепахи має ширину 2,5 дюйма, а ширина другої також 2,5 дюйма. Середня ширина цього зразка з 2 черепах становить 2,5 дюйма.
Уявіть, що ми продовжуємо брати випадкові зразки від 2 черепах знову і знову і щоразу знаходимо середню ширину панцира.
Якби ми склали гістограму для представлення середньої ширини панцира всіх цих зразків від 2 черепах, вона виглядала б так:
Це називається розподілом вибірки для вибіркових середніх, оскільки він показує розподіл вибіркових середніх.
Середнє значення цього розподілу вибірки становить x = μ = 4
Дисперсія цього розподілу вибірки становить s2 = σ2 / n = 1,33 / 2 = 0,665
Взяття випадкової вибірки з 5 із рівномірного розподілу
А тепер уявіть, що ми повторюємо той самий експеримент, але цього разу знову і знову беремо випадкові зразки з 5 черепах і кожного разу знаходимо середню ширину панцира.
Якби ми склали гістограму для представлення середньої ширини панцира всіх цих зразків із 5 черепах, вона виглядала б так:
Зауважте, що цей розподіл має більш «дзвонову» форму, яка нагадує звичайний розподіл . Це пояснюється тим, що коли ми беремо зразки 5, розбіжність між нашими середніми значеннями вибірки є набагато нижчою, тому ми з меншою ймовірністю отримаємо зразки із середнім розміром, близьким до 2 дюймів або 6 дюймів, і більш ймовірно, що ми отримаємо зразки із середнім розміром, близьким до 2 дюймів або 6 дюймів. середнє значення ближче до фактичного середнього показника населення на 4 дюйми.
Середнє значення цього розподілу вибірки становить x = μ = 4
Дисперсія цього розподілу вибірки становить s2 = σ2 / n = 1,33 / 5 = 0,266
Взяття випадкової вибірки 30 із рівномірного розподілу
А тепер уявіть, що ми повторюємо той самий експеримент, але цього разу знову і знову беремо випадкові зразки з 30 черепах і кожного разу знаходимо середню ширину панцира.
Якби ми склали гістограму для представлення середньої ширини панцира всіх цих зразків із 30 черепах, вона виглядала б так:
Зауважте, що цей розподіл вибірки ще більш дзвоноподібний і набагато вужчий, ніж попередні два розподіли.
Середнє значення цього розподілу вибірки становить x = μ = 4
Дисперсія цього розподілу вибірки становить s2 = σ2 / n = 1,33 / 30 = 0,044
Розподіл хі-квадрат
Припустимо, кількість домашніх тварин на сім’ю в певному місті відповідає розподілу хі-квадрат із трьома ступенями свободи. Якби ми зробили гістограму для представлення розподілу тварин за родинами, вона виглядала б так:
Середнє значення розподілу хі-квадрат – це просто кількість ступенів свободи (df). У цьому випадку μ = 3 .
Дисперсія розподілу хі-квадрат становить 2 * df. У цьому випадку σ2 = 2 * 3 = 6 .
Взяття випадкових зразків 2
Уявіть, що ми беремо випадкову вибірку з 2 сімей із цієї популяції та підраховуємо кількість домашніх тварин у кожній родині. Припустимо, що в першій сім’ї 4 тварини, а в другій – 1 тварина. Середня кількість домашніх тварин для цієї вибірки з 2 сімей становить 2,5.
Тоді уявіть, що ми беремо ще одну випадкову вибірку з 2 сімей із цієї популяції та знову підраховуємо кількість домашніх тварин у кожній родині. Припустимо, що в першій сім’ї 6 домашніх тварин, а в другій – 4 тварини. Середня кількість домашніх тварин для цієї вибірки з 2 сімей становить 5.
Уявіть, що ми постійно беремо випадкові зразки з 2 сімей знову і знову і щоразу знаходимо середню кількість домашніх тварин.
Якби ми склали гістограму для представлення середньої кількості домашніх тварин у всіх цих зразках із 2 сімей, вона виглядала б так:
Середнє значення цього розподілу вибірки становить x = μ = 3
Дисперсія цього розподілу вибірки становить s 2 = σ 2 / n = 6 / 2 = 3
Взяття випадкових проб з 10
А тепер уявіть, що ми повторюємо той самий експеримент, але цього разу ми знову і знову беремо випадкові зразки з 10 сімей і кожного разу знаходимо середню кількість тварин на сім’ю.
Якби ми склали гістограму для представлення середньої кількості тварин на сім’ю в усіх цих зразках із 10 сімей, вона виглядала б так:
Середнє значення цього розподілу вибірки становить x = μ = 3
Дисперсія цього розподілу вибірки становить s2 = σ2 / n = 6/10 = 0,6
Взяття випадкових проб із 30
А тепер уявіть, що ми повторюємо той самий експеримент, але цього разу ми знову і знову беремо випадкові зразки з 30 сімей і кожного разу знаходимо середню кількість тварин на сім’ю.
Якби ми склали гістограму для представлення середньої кількості тварин на сім’ю для всіх цих вибірок із 30 сімей, вона виглядала б так:
Середнє значення цього розподілу вибірки становить x = μ = 3
Дисперсія цього розподілу вибірки становить s2 = σ2 / n = 6/30 = 0,2
Резюме
Ось основні висновки з цих двох прикладів:
- Вибірковий розподіл вибіркового середнього є приблизно нормальним, якщо розмір вибірки достатньо великий, навіть якщо розподіл генеральної сукупності не є нормальним . У двох наведених вище прикладах ані рівномірний розподіл, ані розподіл хі-квадрат не були нормальними (вони взагалі не мали форми дзвона), але коли ми взяли досить велику вибірку, розподіл вибіркового середнього перетворився на, здається, бути нормальним.
- Чим більший обсяг вибірки, тим менша дисперсія вибіркового середнього.
Визначте «досить великий»
Згадайте, що центральна гранична теорема стверджує, що вибірковий розподіл вибіркових середніх є приблизно нормальним, якщо розмір вибірки «досить великий» , навіть якщо розподіл сукупності не є нормальним.
Немає точного визначення того, наскільки великою має бути вибірка для застосування центральної граничної теореми, але загалом це залежить від асиметрії розподілу генеральної сукупності, з якої складається вибірка:
- Якщо розподіл сукупності симетричний, інколи достатньо всього 15 розмірів вибірки.
- Якщо розподіл популяції спотворений, зазвичай необхідна вибірка щонайменше з 30 осіб.
- Якщо розподіл населення надзвичайно спотворений, може знадобитися вибірка з 40 або більше осіб.
Ознайомтеся з цим підручником щодо кондиціонування великого зразка, щоб отримати додаткові відомості з цієї теми.