Centralne twierdzenie graniczne: definicja + przykłady
Centralne twierdzenie graniczne stwierdza, że rozkład próbkowania średniej próbki jest w przybliżeniu normalny, jeśli wielkość próby jest wystarczająco duża, nawet jeśli rozkład populacji nie jest normalny .
Centralne twierdzenie graniczne stwierdza również, że rozkład próbkowania będzie miał następujące właściwości:
1. Średnia rozkładu próby będzie równa średniej rozkładu populacji:
x = μ
2. Wariancja rozkładu próby będzie równa wariancji rozkładu populacji podzielonej przez liczebność próby:
s2 = σ2 /n
Przykłady centralnego twierdzenia granicznego
Oto kilka przykładów ilustrujących centralne twierdzenie graniczne w praktyce.
Równomierna dystrybucja
Załóżmy, że szerokość skorupy żółwia ma równomierny rozkład o minimalnej szerokości 2 cali i maksymalnej szerokości 6 cali. Oznacza to, że jeśli wybierzemy losowo żółwia i zmierzymy szerokość jego skorupy, prawdopodobnie będzie on miał również od 2 do 6 cali szerokości .
Gdybyśmy stworzyli histogram przedstawiający rozkład szerokości skorupy żółwia, wyglądałby tak:
Średnia rozkładu równomiernego wynosi μ = (b+a) / 2, gdzie b jest największą możliwą wartością, a a jest najmniejszą możliwą wartością. W tym przypadku jest to (6+2) / 2 = 4.
Wariancja rozkładu jednostajnego wynosi σ2 = (ba) 2/12 . W tym przypadku jest to (6-2) 2/12 = 1,33
Pobieranie losowych próbek 2 z rozkładu jednostajnego
Teraz wyobraźmy sobie, że pobieramy losową próbkę 2 żółwi z tej populacji i mierzymy szerokość skorupy każdego żółwia. Załóżmy, że skorupa pierwszego żółwia ma 3 cale szerokości, a druga 6 cali. Średnia szerokość tej próbki 2 żółwi wynosi 4,5 cala.
Następnie wyobraźmy sobie, że pobieramy kolejną losową próbkę 2 żółwi z tej populacji i ponownie mierzymy szerokość skorupy każdego żółwia. Załóżmy, że skorupa pierwszego żółwia ma 2,5 cala szerokości, a druga również 2,5 cala. Średnia szerokość tej próbki 2 żółwi wynosi 2,5 cala.
Wyobraź sobie, że ciągle pobieramy losowe próbki od 2 żółwi i za każdym razem ustalamy średnią szerokość muszli.
Gdybyśmy stworzyli histogram przedstawiający średnią szerokość skorupy wszystkich próbek od 2 żółwi, wyglądałby tak:
Nazywa się to rozkładem próbkowania średnich z próbki, ponieważ pokazuje rozkład średnich z próbki.
Średnia tego rozkładu próbkowania wynosi x = μ = 4
Wariancja tego rozkładu próbkowania wynosi s2 = σ2 / n = 1,33 / 2 = 0,665
Pobieranie losowych próbek po 5 z rozkładu jednostajnego
Teraz wyobraź sobie, że powtarzamy ten sam eksperyment, ale tym razem raz po raz pobieramy losowe próbki od 5 żółwi i za każdym razem znajdujemy średnią szerokość skorupy.
Gdybyśmy stworzyli histogram przedstawiający średnią szerokość skorupy wszystkich próbek 5 żółwi, wyglądałby tak:
Zauważ, że rozkład ten ma bardziej kształt dzwonu, przypominający rozkład normalny . Dzieje się tak dlatego, że gdy pobieramy próbki o wartości 5, rozbieżność między średnimi z naszej próbki jest znacznie mniejsza, więc jest mniej prawdopodobne, że otrzymamy próbki o średniej wielkości bliskiej 2 cali lub 6 cali, a bardziej prawdopodobne, że otrzymamy próbki o średniej wielkości bliskiej 2 cali lub 6 cali. średnia jest bliższa rzeczywistej średniej populacji o 4 cale.
Średnia tego rozkładu próbkowania wynosi x = μ = 4
Wariancja tego rozkładu próbkowania wynosi s2 = σ2 / n = 1,33 / 5 = 0,266
Pobieranie losowych próbek po 30 z rozkładu jednostajnego
Teraz wyobraź sobie, że powtarzamy ten sam eksperyment, ale tym razem raz po raz pobieramy losowe próbki od 30 żółwi i za każdym razem znajdujemy średnią szerokość skorupy.
Gdybyśmy stworzyli histogram przedstawiający średnią szerokość skorupy wszystkich próbek 30 żółwi, wyglądałby tak:
Należy zauważyć, że ten rozkład próbkowania ma jeszcze bardziej kształt dzwonu i jest znacznie węższy niż poprzednie dwa rozkłady.
Średnia tego rozkładu próbkowania wynosi x = μ = 4
Wariancja tego rozkładu próbkowania wynosi s2 = σ2 / n = 1,33 / 30 = 0,044
Rozkład chi-kwadrat
Załóżmy, że liczba zwierząt domowych na rodzinę w pewnym mieście jest zgodna z rozkładem chi-kwadrat z trzema stopniami swobody. Gdybyśmy stworzyli histogram przedstawiający rozmieszczenie zwierząt według rodziny, wyglądałby tak:
Średnia rozkładu chi-kwadrat to po prostu liczba stopni swobody (df). W tym przypadku μ = 3 .
Wariancja rozkładu chi-kwadrat wynosi 2 * df. W tym przypadku σ2 = 2 * 3 = 6 .
Pobieranie losowych próbek 2
Wyobraź sobie, że bierzemy losową próbkę 2 rodzin z tej populacji i liczymy liczbę zwierząt domowych w każdej rodzinie. Załóżmy, że pierwsza rodzina ma 4 zwierzęta, a druga rodzina ma 1 zwierzę. Średnia liczba zwierząt domowych w tej próbie 2 rodzin wynosi 2,5.
Następnie wyobraź sobie, że bierzemy kolejną losową próbkę 2 rodzin z tej populacji i ponownie liczymy liczbę zwierząt domowych w każdej rodzinie. Załóżmy, że pierwsza rodzina ma 6 zwierząt, a druga rodzina ma 4 zwierzęta. Średnia liczba zwierząt domowych w tej próbie 2 rodzin wynosi 5.
Wyobraź sobie, że ciągle pobieramy losowe próbki od 2 rodzin i za każdym razem znajdujemy średnią liczbę zwierząt domowych.
Gdybyśmy stworzyli histogram przedstawiający średnią liczbę zwierząt domowych we wszystkich próbkach z 2 rodzin, wyglądałby tak:
Średnia tego rozkładu próbkowania wynosi x = μ = 3
Wariancja tego rozkładu próbkowania wynosi s 2 = σ 2 / n = 6 / 2 = 3
Pobieranie losowych próbek 10
Teraz wyobraź sobie, że powtarzamy ten sam eksperyment, ale tym razem raz po raz pobieramy losowe próbki 10 rodzin i za każdym razem znajdujemy średnią liczbę zwierząt w rodzinie.
Gdybyśmy stworzyli histogram przedstawiający średnią liczbę zwierząt w rodzinie we wszystkich próbkach 10 rodzin, wyglądałby tak:
Średnia tego rozkładu próbkowania wynosi x = μ = 3
Wariancja tego rozkładu próbkowania wynosi s2 = σ2 / n = 6/10 = 0,6
Pobieranie losowych próbek 30
Teraz wyobraź sobie, że powtarzamy ten sam eksperyment, ale tym razem raz po raz pobieramy losowe próbki 30 rodzin i za każdym razem znajdujemy średnią liczbę zwierząt w rodzinie.
Gdybyśmy stworzyli histogram przedstawiający średnią liczbę zwierząt w rodzinie we wszystkich próbkach 30 rodzin, wyglądałby tak:
Średnia tego rozkładu próbkowania wynosi x = μ = 3
Wariancja tego rozkładu próbkowania wynosi s2 = σ2 / n = 6/30 = 0,2
Streszczenie
Oto główne wnioski z tych dwóch przykładów:
- Rozkład próbkowania średniej próbki jest w przybliżeniu normalny, jeśli wielkość próby jest wystarczająco duża, nawet jeśli rozkład populacji nie jest normalny . W dwóch powyższych przykładach ani rozkład równomierny, ani rozkład chi-kwadrat nie były normalne (w ogóle nie miały kształtu „dzwonu”), ale kiedy pobraliśmy wystarczająco dużą próbkę, rozkład średniej próbki zmienił się w wydaje się bądź normalny.
- Im większa wielkość próby, tym mniejsza wariancja średniej próbki.
Zdefiniuj „wystarczająco duży”
Przypomnijmy, że centralne twierdzenie graniczne stwierdza, że rozkład próbkowania średnich z próby jest w przybliżeniu normalny, jeśli wielkość próby jest „wystarczająco duża” , nawet jeśli rozkład populacji nie jest normalny.
Nie ma dokładnej definicji tego, jak duża powinna być próba, aby można było zastosować centralne twierdzenie graniczne, ale ogólnie zależy to od skośności rozkładu populacji, z której pochodzi próbka:
- Jeśli rozkład populacji jest symetryczny, czasami wystarczająca jest wielkość próby wynosząca zaledwie 15 osób.
- Jeśli rozkład populacji jest nierówny, zwykle konieczna jest próba licząca co najmniej 30 osób.
- Jeżeli rozkład populacji jest wyjątkowo nierówny, konieczna może być próba licząca 40 lub więcej osób.
Więcej informacji na ten temat znajdziesz w tym samouczku dotyczącym kondycjonowania dużej próbki .