Kiedy stosować średnią vs. mediana: z przykładami
Średnia zbioru danych reprezentuje średnią wartość zbioru danych. Oblicza się go w następujący sposób:
Średnia = Σx i /n
Złoto:
- Σ: Symbol oznaczający „sumę”
- x i : i -ta obserwacja w zbiorze danych
- n: całkowita liczba obserwacji w zbiorze danych
Mediana reprezentuje środkową wartość zbioru danych. Oblicza się go, porządkując wszystkie obserwacje w zbiorze danych od najmniejszej do największej, a następnie identyfikując wartość mediany.
Załóżmy na przykład, że mamy następujący zbiór danych zawierający 11 obserwacji :
Zbiór danych: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17
Średnią ze zbioru danych oblicza się w następujący sposób:
Średnia = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9,54
Mediana zbioru danych to wartość znajdująca się bezpośrednio pośrodku, która okazuje się wynosić 8:
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
Średnia i mediana oszacowania, gdzie znajduje się środek zbioru danych. Jednakże, w zależności od charakteru danych, średnia lub mediana mogą być bardziej przydatne do opisania środka zbioru danych.
Kiedy stosować średnią
Najlepiej jest używać średniej do opisania środka zbioru danych, gdy rozkład jest zasadniczo symetryczny i nie ma wartości odstających.
Załóżmy na przykład, że mamy następujący rozkład pokazujący zarobki mieszkańców danego miasta:
Ponieważ rozkład ten jest dość symetryczny (jeśli podzielimy go przez środek, każda połowa będzie wyglądać mniej więcej tak samo) i nie ma żadnych wartości odstających, możemy użyć średniej do opisania środka tego zestawu danych.
Średnia wynosi 63 000 dolarów, co stanowi mniej więcej środek rozkładu:
Kiedy stosować medianę
Najlepiej jest używać mediany, gdy rozkład jest skośny lub gdy występują wartości odstające.
Zniekształcone dane:
Kiedy rozkład jest skośny, mediana opisuje środek rozkładu lepiej niż średnia.
Rozważmy na przykład następujący rozkład wynagrodzeń mieszkańców danego miasta:
Mediana lepiej oddaje „typową” pensję mieszkańca niż średnia. Dzieje się tak, ponieważ wysokie wartości na końcu rozkładu mają tendencję do wypychania średniej od środka w kierunku długiego ogona.
W tym przykładzie średnia mówi nam, że typowa osoba zarabia około 47 000 dolarów rocznie, podczas gdy mediana mówi nam, że typowa osoba zarabia tylko około 32 000 dolarów rocznie, co jest znacznie bardziej reprezentatywne dla typowej osoby.
Wartości odstające:
Mediana pomaga również lepiej uchwycić centralną lokalizację rozkładu, gdy w danych występują wartości odstające. Rozważmy na przykład poniższy wykres przedstawiający powierzchnię domów przy określonej ulicy:
Na średnią duży wpływ ma kilka niezwykle dużych domów, podczas gdy na medianę nie. Zatem mediana lepiej oddaje „typową” powierzchnię domu przy tej ulicy niż średnia.
Streszczenie
W podsumowaniu:
- Średniej i mediany można użyć do opisania, gdzie znajduje się „środek” zbioru danych.
- Najlepiej stosować średnią, gdy rozkład wartości danych jest symetryczny i nie ma wyraźnych wartości odstających.
- Najlepiej stosować medianę, gdy rozkład wartości danych jest wypaczony lub gdy występują oczywiste wartości odstające.
Dodatkowe zasoby
Jak wartości odstające wpływają na średnią?
Jak oszacować średnią i medianę dowolnego histogramu
Jak znaleźć średnią i medianę wykresów łodyg i liści