Zalety i wady stosowania mediany w statystyce
Mediana reprezentuje środkową wartość zbioru danych.
Oblicza się go, porządkując wszystkie obserwacje w zbiorze danych od najmniejszej do największej, a następnie identyfikując wartość mediany.
Używanie mediany do opisu środka zbioru danych ma dwie główne zalety:
Zaleta nr 1: Wartości odstające nie wpływają na medianę. Ponieważ mediana znajduje tylko środkową wartość zbioru danych, nie mają na nią wpływu bardzo małe lub bardzo duże wartości na żadnym końcu zbioru danych.
Zaleta nr 2: Mediana jest dobrą miarą środka w przypadku skośnych zestawów danych. Kiedy zbiór danych jest przesunięty w lewo lub w prawo , mediana nadal pozwala zidentyfikować centralną wartość zbioru danych, w przeciwieństwie do średniej, na którą duży wpływ mają skośne rozkłady.
Jednakże użycie mediany do podsumowania zbioru danych ma dwie potencjalne wady:
Wada nr 1: Mediana nie uwzględnia w swoich obliczeniach wszystkich obserwacji ze zbioru danych. W statystyce zwykle mówimy, że dobrze jest, jeśli możemy wykorzystać wszystkie obserwacje w zbiorze danych, ponieważ wtedy wykorzystujemy wszystkie informacje dostępne w naszych danych. Mediana nie uwzględnia jednak informacji pochodzących z wyjątkowo małych lub bardzo dużych wartości w zbiorze danych.
Wada nr 2: Mediany nie można użyć do znalezienia sumy wszystkich obserwacji w zbiorze danych. Jeśli znamy średnią i całkowitą wielkość próby zbioru danych, możemy znaleźć sumę wszystkich wartości w zbiorze danych. Nie możemy jednak zrobić tego samego z medianą.
Poniższe przykłady ilustrują te zalety i wady w praktyce.
Przykład 1: zalety stosowania mediany
Załóżmy, że mamy bardzo wypaczony rozkład wynagrodzeń i decydujemy się obliczyć zarówno średnią, jak i medianę wynagrodzenia:
Średnia mówi nam, że typowa osoba zarabia około 47 000 dolarów rocznie, podczas gdy mediana mówi nam, że typowa osoba zarabia tylko około 32 000 dolarów rocznie, co jest znacznie bardziej reprezentatywne dla typowej osoby.
W tym przykładzie na średnią wpływają najwyższe wartości z prawego ogona rozkładu, podczas gdy mediana nie.
Lub załóżmy, że mamy inny rozkład zawierający informacje o powierzchni domów na określonej ulicy i decydujemy się obliczyć zarówno średnią, jak i medianę zbioru danych:
Na średnią wpływa kilka wyjątkowo dużych domów, przez co przyjmuje ona znacznie wyższą wartość.
Jednak te wartości odstające nie mają wpływu na medianę i dlatego stanowią znacznie lepszą miarę „typowej” powierzchni domu przy tej ulicy.
Przykład 2: wady stosowania mediany
Przypomnijmy pierwszą potencjalną wadę mediany:
Wada nr 1: Mediana nie uwzględnia w swoich obliczeniach wszystkich obserwacji ze zbioru danych.
Załóżmy na przykład, że mamy następujący zbiór danych pokazujący rozkład wyników egzaminów uczniów w klasie:
Oceny: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Średni wynik egzaminu to 83.
Załóżmy teraz, że mamy ten sam zestaw danych, ale trzy najniższe wyniki z egzaminów są znacznie niższe:
Oceny: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92
Średni wynik egzaminu w tym rozkładzie nadal wynosi 83.
Dlatego mówimy, że mediana nie wykorzystuje wszystkich informacji dostępnych w zbiorze danych: nie uwzględnia rzeczywistych wartości danych, ponieważ jest jedynie miarą pozycji.
Przypomnijmy sobie teraz drugą potencjalną wadę mediany:
Wada nr 2: Mediany nie można użyć do znalezienia sumy wszystkich obserwacji w zbiorze danych.
Załóżmy, że mamy następujący zbiór danych zawierający informacje o łącznej sprzedaży zrealizowanej przez 11 różnych pracowników w danym kwartale:
Sprzedaż: 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38
Wiemy, że mediana wynosi 24 i wiemy, że w sumie jest 11 pracowników. Nie możemy jednak wykorzystać tych informacji, aby poznać całkowitą kwotę sprzedaży wszystkich pracowników.
Z drugiej strony, gdybyśmy wiedzieli, że średnia wartość wynosi 24 i że w sumie jest 11 pracowników, moglibyśmy po prostu pomnożyć 24 przez 11 i otrzymać całkowitą sumę sprzedaży wynoszącą 24 * 11 = 264.
Uwaga : w zależności od rozmieszczenia danych i problemu, który próbujesz rozwiązać, preferowanym miernikiem może być średnia lub mediana.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat średniej i mediany w statystykach:
Jak wartości odstające wpływają na średnią?
Jak oszacować średnią i medianę dowolnego histogramu
Jak znaleźć średnią i medianę wykresów łodyg i liści