Średnia próbki w porównaniu ze średnią populacji: jaka jest różnica?
Często w statystykach chcemy odpowiedzieć na pytania typu:
- Jaki jest średni dochód gospodarstwa domowego w danym mieście?
- Jaka jest średnia waga określonego gatunku żółwia?
- Jaka jest średnia frekwencja na meczach futbolu uniwersyteckiego?
W każdym scenariuszu chcemy odpowiedzieć na pytanie dotyczącepopulacji , która reprezentuje wszystkie możliwe indywidualne elementy, które chcemy zmierzyć.
Zamiast jednak gromadzić dane o każdym osobniku w populacji, zamiast tego zbieramy dane o próbie populacji, która reprezentuje część całej populacji.
Na przykład możemy chcieć poznać średnią wagę określonego gatunku żółwia, którego całkowita populacja wynosi 800 żółwi.
Ponieważ zlokalizowanie i zważenie każdego żółwia w populacji zajęłoby zbyt dużo czasu, zamiast tego zbieramy prostą losową próbkę 30 żółwi i mierzymy ich wagę:
Moglibyśmy następnie wykorzystać średnią wagę tej próbki żółwi do oszacowania średniej masy wszystkich żółwi w populacji.
Jak obliczyć średnią próbki
Wzór na obliczenie średniej próbki, często oznaczanej jako x , jest następujący:
x = Σx i / n
Złoto:
- Σ: wyrafinowany grecki symbol oznaczający „sumę”
- x i : Wartość i-tej obserwacji w zbiorze danych
- n: Wielkość próbki
Załóżmy na przykład, że zbieramy próbkę 10 żółwi o następującej masie (w funtach):
- 70, 80, 80, 85, 90, 95, 110, 120, 140, 150
Średnią próbkę można obliczyć w następujący sposób:
- x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102
Dlaczego średnia próbki jest bezstronna
W żargonie statystycznym powiedzielibyśmy, że średnia próbki jest statystyką , podczas gdy średnia populacji jest parametrem .
Oto różnica między tymi dwoma terminami:
Statystyka to liczba opisująca pewne cechy próbki.
Parametr to liczba opisująca cechę populacji.
Parametr to wartość, którą faktycznie chcemy zmierzyć, ale statystyka to wartość, której używamy do oszacowania wartości parametru, ponieważ statystykę można uzyskać znacznie łatwiej.
Kiedy w celu uzyskania próbki stosujemy metodę taką jak proste losowanie , mówimy, że średnia próbki jest nieobciążonym estymatorem średniej populacji.
Innymi słowy, nie mamy powodu sądzić, że średnia z próby zaniżałaby lub przeszacowywała prawdziwą średnią populacji.
Dzieje się tak dlatego, że gdy stosujemy metodę np. prostego doboru losowego, każdy członek populacji ma równe szanse na znalezienie się w próbie, co oznacza, że próba będzie prawdopodobnie „miniwersją” całej populacji .
Powiedzielibyśmy, że próba jest reprezentatywna dla całej populacji , co oznacza, że średnia próbki powinna być dobrym oszacowaniem średniej populacji, zakładając, że wielkość próby jest wystarczająco duża.
O stosowaniu przedziałów ufności ze średnią próbki
Chociaż średnia z próby pozwala na bezstronne oszacowanie średniej populacji, jest mało prawdopodobne, aby dokładnie odpowiadała średniej populacji.
Na przykład, jeśli chcemy wykorzystać próbkę żółwi do oszacowania średniej masy populacji żółwi, możemy wybrać próbkę wypełnioną żółwiami o niskiej masie lub próbkę wypełnioną żółwiami ciężkimi.
Aby uchwycić tę niepewność wokół naszego oszacowania średniej populacji, możemy utworzyć przedział ufności .
Przedział ufności to zakres wartości, który prawdopodobnie będzie zawierał parametr populacji z pewnym poziomem ufności.
Na przykład możemy zebrać próbkę 30 żółwi i stwierdzić, że średnia waga tej próbki wynosi 102 funty. Jeśli następnie skonstruujemy 95% przedział ufności, możemy odkryć, że przedział ten wynosi:
95% przedział ufności = [98,5; 105,5]
Zinterpretowalibyśmy to w ten sposób, że istnieje 95% szans, że przedział ufności [98,5, 105,5] zawiera prawdziwą średnią masę populacji żółwi.
Ten przedział ufności jest bardziej przydatny niż prosta średnia z próby, ponieważ daje nam zakres wartości, w którym prawdopodobnie będzie się znajdować prawdziwa średnia populacji.
Dodatkowe zasoby
Populacja vs. próbka: jaka jest różnica?
Statystyki vs. parametry: jaka jest różnica?
Wprowadzenie do przedziałów ufności