Zalety i wady stosowania średniej w statystykach
Średnia zbioru danych reprezentuje średnią wartość zbioru danych.
Oblicza się go w następujący sposób:
Średnia = Σx i /n
Złoto:
- Σ: Symbol oznaczający „sumę”
- x i : i -ta obserwacja w zbiorze danych
- n: całkowita liczba obserwacji w zbiorze danych
Używanie średniej do opisu „środka” lub „średniej” zbioru danych ma dwie główne zalety:
Zaleta nr 1: Średnia wykorzystuje w swoich obliczeniach wszystkie obserwacje ze zbioru danych. W statystyce jest to ogólnie rzecz biorąc dobra rzecz, ponieważ mówi się, że wykorzystuje wszystkie informacje dostępne w zestawie danych.
Zaleta nr 2: Średnią można łatwo obliczyć i zinterpretować. Średnia to suma wszystkich obserwacji podzielona przez całkowitą liczbę obserwacji. Jest to zarówno łatwe do obliczenia (nawet ręcznie), jak i łatwe do interpretacji.
Jednakże użycie średniej do podsumowania zbioru danych ma dwie potencjalne wady:
Wada nr 1: Na średnią wpływają wartości odstające. Jeśli zbiór danych ma skrajną wartość odstającą, wpływa to na średnią i sprawia, że jest ona niewiarygodną miarą środka zbioru danych.
Wada nr 2: Średnia może wprowadzać w błąd w przypadku skośnych zestawów danych. Kiedy zbiór danych jest przechylony w lewo lub w prawo , uśrednianie może być mylącym sposobem pomiaru środka zbioru danych.
Poniższe przykłady ilustrują te zalety i wady w praktyce.
Przykład 1: Korzyści ze stosowania średniej
Załóżmy, że mamy następujący histogram przedstawiający zarobki mieszkańców danego miasta:
Ponieważ rozkład ten jest na ogół symetryczny (jeśli podzielisz go przez środek, każda połowa będzie wyglądać mniej więcej tak samo) i nie ma żadnych wartości odstających, średnia jest użytecznym sposobem opisania środka tego zestawu danych.
Średnia wynosi 63 000 dolarów, co stanowi mniej więcej środek rozkładu:
W tym konkretnym przykładzie mogliśmy wykorzystać obie zalety uśredniania:
Zaleta nr 1: Średnia wykorzystuje w swoich obliczeniach wszystkie obserwacje ze zbioru danych.
Ponieważ rozkład był zasadniczo symetryczny i nie było żadnych skrajnych wartości odstających, mogliśmy wykorzystać wszystkie dostępne wynagrodzenia do obliczenia średniej, co dało nam dobre pojęcie o „przeciętnej” lub „typowej” pensji w tym konkretnym mieście.
Zaleta nr 2: Średnią można łatwo obliczyć i zinterpretować. Łatwo zrozumieć, że średnia pensja wynosząca 63 000 dolarów odpowiada „przeciętnej” pensji jednostki w tym mieście.
Chociaż niektóre osoby zarabiają znacznie więcej, a inne znacznie mniej, ta średnia wartość daje nam dobre wyobrażenie o „typowej” pensji w tym mieście.
Przykład 2: Wady stosowania średniej
Załóżmy, że mamy bardzo wypaczony rozkład wynagrodzeń i decydujemy się obliczyć zarówno średnią, jak i medianę wynagrodzenia:
Wyższe wartości na końcu rozkładu przesuwają średnią od środka w kierunku długiego ogona.
W tym przykładzie średnia mówi nam, że typowa osoba zarabia około 47 000 dolarów rocznie, podczas gdy mediana mówi nam, że typowa osoba zarabia tylko około 32 000 dolarów rocznie, co jest znacznie bardziej reprezentatywne dla typowej osoby.
W tym przykładzie średnia słabo podsumowuje „typową” lub „średnią” wartość w tym rozkładzie, ponieważ rozkład jest skośny.
Lub załóżmy, że mamy inny rozkład zawierający informacje o powierzchni domów na określonej ulicy i decydujemy się obliczyć zarówno średnią, jak i medianę zbioru danych:
Na średnią wpływa kilka wyjątkowo dużych domów, przez co przyjmuje ona znacznie wyższą wartość.
To sprawia, że średnia wartość metra kwadratowego wprowadza w błąd i daje słabą miarę „typowej” powierzchni domu przy tej ulicy.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat średniej i mediany w statystykach:
Jak wartości odstające wpływają na średnią?
Jak oszacować średnią i medianę dowolnego histogramu
Jak znaleźć średnią i medianę wykresów łodyg i liści