Co to znaczy, że statystyka jest odporna?


Mówi się, że statystyka jest odporna , jeśli nie jest wrażliwa na wartości ekstremalne.

Oto dwa przykłady odpornych statystyk:

  • Mediana
  • Rozstęp międzykwartylowy

Oto przykłady statystyk, które się nie sprawdzają :

  • Średnia
  • Odchylenie standardowe
  • Czysty

Poniższy przykład ilustruje różnicę między statystykami odpornymi i nieodpornymi.

Przykład: statystyki odporne i nieodporne

Załóżmy, że mamy następujący zbiór danych:

Zbiór danych: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29

Za pomocą kalkulatora lub oprogramowania statystycznego możemy obliczyć wartość następujących statystyk holdingowych dla tego zbioru danych:

  • Mediana: 13
  • Rozstęp międzykwartylowy: 13,5

Możemy również obliczyć wartość następujących nieodpornych statystyk dla tego zbioru danych:

  • Średnia: 13,54
  • Odchylenie standardowe: 8,82
  • Zasięg: 27

Rozważmy teraz, czy do tego zbioru danych dodano skrajną wartość odstającą:

Zbiór danych: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29, 450

Możemy ponownie obliczyć wartość następujących odpornych statystyk dla tego zbioru danych:

  • Mediana: 14
  • Rozstęp międzykwartylowy: 15,75

Możemy również obliczyć wartość następujących nieodpornych statystyk dla tego zbioru danych:

  • Średnia: 49,92
  • Odchylenie standardowe: 126,27
  • Zasięg: 448

Zwróć uwagę, jak bardzo zmieniły się statystyki braku oporu, po prostu dodając ekstremalną wartość do zbioru danych:

Przykład statystyki oporu

I odwrotnie, statystyki bojowników ruchu oporu prawie się nie zmieniły. Mediana i rozstęp międzykwartylowy zmieniły się jedynie nieznacznie.

Kiedy używać odpornych statystyk

Najczęściej używanymi statystykami do pomiaru środka i rozproszenia wartości w zbiorze danych są odpowiednio średnia i odchylenie standardowe.

Niestety obie te statystyki są wrażliwe na wartości ekstremalne. Jeśli zatem w zbiorze danych występują wartości odstające, średnia i odchylenie standardowe nie będą dokładnie opisywać rozkładu wartości w zbiorze danych.

Zamiast tego zaleca się użycie mediany i rozstępu międzykwartylowego do pomiaru środka i rozproszenia wartości w zbiorze danych, jeśli występują wartości odstające, ponieważ obie te statystyki są solidne .

Dodatkowe zasoby

Jak wartości odstające wpływają na średnią?
Kiedy stosować średnią a kiedy medianę
Kiedy stosować rozstęp międzykwartylowy a odchylenie standardowe

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *