Jak wartości odstające wpływają na średnią?
W statystyce średnia zbioru danych jest wartością średnią. Warto to wiedzieć, ponieważ daje nam pojęcie, gdzie znajduje się „środek” zbioru danych. Oblicza się go za pomocą prostego wzoru:
średnia = (suma obserwacji) / (liczba obserwacji)
Załóżmy na przykład, że mamy następujący zestaw danych:
[1, 4, 5, 6, 7]
Średnia zbioru danych wynosi (1+4+5+6+7) / (5) = 4,6
Ale chociaż średnia jest przydatna i łatwa do obliczenia, ma wadę: mogą na nią wpływać wartości odstające . W szczególności im mniejszy zbiór danych, tym bardziej wartość odstająca może wpłynąć na średnią.
Aby to zilustrować, rozważmy następujący klasyczny przykład:
W barze siedzi dziesięciu mężczyzn. Średni dochód dziesięciu mężczyzn wynosi 50 000 dolarów. Nagle wychodzi mężczyzna i wchodzi Bill Gates. Dziś średni dochód dziesięciu mężczyzn w barze wynosi 40 milionów dolarów.
Ten przykład pokazuje, jak wartość odstająca (Bill Gates) może znacząco wpłynąć na średnią.
Małe i duże wartości odstające
Wartość odstająca może wpływać na średnią, będąc niezwykle małą lub niezwykle dużą. W poprzednim przykładzie Bill Gates miał niezwykle wysokie dochody, przez co średnia wprowadzała w błąd.
Jednak niezwykle niska wartość może również mieć wpływ na średnią. Aby to zilustrować, rozważmy następujący przykład:
Dziesięciu uczniów przystępuje do egzaminu i uzyskuje następujące oceny:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
Średni wynik to 84,6 .
Jeśli jednak usuniemy wynik „0” ze zbioru danych, wówczas średni wynik wyniesie 94 .
Niezwykle niski wynik ucznia obniża średnią całego zbioru danych.
Wielkość próby i wartości odstające
Im mniejsza wielkość próby zbioru danych, tym większe prawdopodobieństwo, że wartość odstająca wpłynie na średnią.
Załóżmy na przykład, że mamy zbiór danych zawierający 100 wyników egzaminów, z których wszyscy uczniowie uzyskali co najmniej 90 lub więcej, z wyjątkiem jednego ucznia, który uzyskał zero:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
Średnia okazuje się wynosić 93,18 . Gdybyśmy usunęli „0” ze zbioru danych, średnia wyniosłaby 94,12 . Jest to stosunkowo niewielka różnica. Pokazuje to, że nawet skrajna wartość odstająca ma minimalny wpływ, jeśli zbiór danych jest wystarczająco duży.
Jak postępować z wartościami odstającymi
Jeśli obawiasz się, że w Twoim zbiorze danych mogą znajdować się wartości odstające, masz kilka możliwości:
- Upewnij się, że wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych. Czasami osoba po prostu wprowadza niewłaściwą wartość danych podczas zapisywania danych. Jeśli występuje wartość odstająca, najpierw sprawdź, czy wartość została wprowadzona poprawnie i czy nie jest to błąd.
- Przypisz nową wartość do wartości odstającej . Jeśli okaże się, że wartość odstająca wynika z błędu we wprowadzaniu danych, możesz zdecydować się na przypisanie jej nowej wartości, takiej jak średnia lub mediana zbioru danych.
- Usuń wartość odstającą. Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę. Pamiętaj tylko, aby wspomnieć w raporcie końcowym lub analizie, że usunąłeś wartość odstającą.
Użyj mediany
Innym sposobem znalezienia „środka” zbioru danych jest użycie mediany uzyskanej poprzez uporządkowanie wszystkich poszczególnych wartości w zbiorze danych od najmniejszej do największej i znalezienie wartości mediany.
Ze względu na sposób obliczania mediana jest mniej podatna na wartości odstające i lepiej oddaje centralne położenie rozkładu, gdy występują wartości odstające.
Rozważmy na przykład poniższy wykres przedstawiający powierzchnię domów w określonej okolicy:
Na średnią duży wpływ ma kilka niezwykle dużych domów, podczas gdy na medianę nie. Zatem mediana lepiej oddaje „typową” powierzchnię domu w tej okolicy niż średnia.
Dalsza lektura:
Miary tendencji centralnej – średnia, mediana i moda
Test Q Dixona do wykrywania wartości odstających
Kalkulator wartości odstających