Proste wyjaśnienie, jak interpretować wariancję
W statystyce często chcemy zrozumieć, jak „rozłożone” wartości znajdują się w zbiorze danych. Aby to zmierzyć, często używamy następujących miar dyspersji:
- Zakres: różnica pomiędzy największą i najmniejszą wartością w zbiorze danych.
- Rozstęp międzykwartylowy: różnica między pierwszym kwartylem a trzecim kwartylem zbioru danych (kwartyle to po prostu wartości dzielące zbiór danych na cztery równe części).
- Odchylenie standardowe: sposób pomiaru typowej odległości między wartościami a średnią.
- Wariancja: odchylenie standardowe do kwadratu.
Spośród tych czterech miar wariancja jest zwykle najtrudniejsza do zrozumienia intuicyjnie. Celem tego artykułu jest przedstawienie prostego wyjaśnienia wariancji.
Zrozumienie odchylenia standardowego
Zanim zrozumiemy wariancję, musimy najpierw zrozumieć odchylenie standardowe , zwykle oznaczane jako σ .
Wzór na obliczenie odchylenia standardowego jest następujący:
σ = √(Σ (x i – μ) 2 / N)
gdzie μ to średnia populacji, x i to i- ty element populacji, N to wielkość populacji, a Σ to po prostu fantazyjny symbol oznaczający „sumę”.
W praktyce rzadko będzie konieczne ręczne obliczanie odchylenia standardowego; zamiast tego możesz użyć oprogramowania statystycznego lub kalkulatora.
Na najbardziej podstawowym poziomie odchylenie standardowe mówi nam o rozkładzie wartości danych w zbiorze danych. Aby to zilustrować, rozważ następujące trzy zestawy danych wraz z odpowiadającymi im odchyleniami standardowymi:
[5, 5, 5] odchylenie standardowe = 0 (brak rozrzutu)
[3, 5, 7] odchylenie standardowe = 1,63 (niektóre odchylenia)
[1, 5, 99] odchylenie standardowe = 45,28 (duża rozpiętość)
Termin „odchylenie standardowe” można zrozumieć, patrząc na dwa słowa, które go tworzą:
- „odchylenie” – odnosi się do odległości od średniej.
- „standard” – odnosi się do „standardowej” lub „typowej” odległości między wartością a średnią.
Gdy zrozumiesz odchylenie standardowe, znacznie łatwiej będzie zrozumieć wariancję.
Zrozumienie luki
Wariancja, zwykle oznaczana jako σ2 , jest po prostu kwadratem odchylenia standardowego. Wzór na znalezienie wariancji zbioru danych jest następujący:
σ 2 = Σ (x i – μ) 2 / N
gdzie μ to średnia populacji, x i to i- ty element populacji, N to wielkość populacji, a Σ to po prostu fantazyjny symbol oznaczający „sumę”.
Zatem jeśli odchylenie standardowe zbioru danych wynosi 8, wówczas zmienność wyniesie 8 · 2 = 64.
Lub, jeśli odchylenie standardowe zbioru danych wynosi 10, wówczas zmienność wyniesie 10 2 = 100.
Lub, jeśli odchylenie standardowe zbioru danych wynosi 3,7, wówczas zmienność wyniesie 3,7 · 2 = 13,69.
Im bardziej rozproszone są wartości w zbiorze danych, tym większa jest wariancja. Aby to zilustrować, rozważ następujące trzy zestawy danych wraz z odpowiadającymi im wariancjami:
[5, 5, 5] wariancja = 0 (brak spreadu)
[3, 5, 7] wariancja = 2,67 (niektóre odchylenia)
[1, 5, 99] wariancja = 2050,67 (duży spread)
Kiedy użyłbyś wariancji zamiast odchylenia standardowego?
Po przeczytaniu powyższych wyjaśnień dotyczących odchylenia standardowego i wariancji możesz się zastanawiać, czy kiedykolwiek użyłbyś wariancji zamiast odchylenia standardowego do opisania zbioru danych.
W końcu odchylenie standardowe mówi nam o średniej odległości między wartością a średnią, podczas gdy wariancja mówi nam o kwadratie tej wartości. Wydawałoby się, że odchylenie standardowe jest znacznie łatwiejsze do zrozumienia i interpretacji.
W rzeczywistości prawie zawsze będziesz używać odchylenia standardowego do opisu rozkładu wartości w zbiorze danych.
Jednakże wariancja może być użyteczna przy stosowaniu technik takich jak ANOVA lub regresja i próbach wyjaśnienia całkowitej wariancji modelu ze względu na określone czynniki.
Na przykład możesz chcieć zrozumieć, jak dużą rozbieżność w wynikach testów można wyjaśnić IQ, a ile wariancji można wyjaśnić liczbą przepracowanych godzin.
Jeśli 36% zmienności wynika z IQ, a 64% z godzin nauki, łatwo to zrozumieć. Ale jeśli użyjemy odchyleń standardowych 6 i 8, jest to znacznie mniej intuicyjne i nie ma większego sensu w kontekście problemu.
Innym przypadkiem, w którym lepszym rozwiązaniem może być użycie wariancji niż odchylenia standardowego, jest wykonywanie teoretycznych prac statystycznych.
W tym przypadku znacznie łatwiej jest użyć wariancji podczas obliczeń, ponieważ nie trzeba używać pierwiastka kwadratowego.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat wariancji:
Wariancja próbki i wariancja populacji: jaka jest różnica?
Jak obliczyć wariancję próby i populacji w programie Excel