Zalety i wady stosowania odchylenia standardowego
Odchylenie standardowe zbioru danych jest sposobem pomiaru typowego odchylenia poszczególnych wartości od wartości średniej.
Wzór na obliczenie odchylenia standardowego próbki, oznaczonego s , jest następujący:
s = √ Σ(x i – x̄) 2 / (n – 1)
Złoto:
- Σ : Symbol oznaczający „sumę”
- x i : i- ta wartość w zestawie danych
- x̄ : Przykładowe środki
- n : Rozmiar próbki
Stosowanie odchylenia standardowego do opisu rozkładu wartości w zbiorze danych ma dwie główne zalety:
Zaleta nr 1: Odchylenie standardowe wykorzystuje w swoich obliczeniach wszystkie obserwacje ze zbioru danych. W statystyce ogólnie mówimy, że dobrze jest móc wykorzystać wszystkie obserwacje ze zbioru danych do wykonania obliczeń, ponieważ wykorzystujemy wszystkie możliwe „informacje” dostępne w zbiorze danych.
Zaleta nr 2: Odchylenie standardowe jest łatwe do interpretacji . Odchylenie standardowe to pojedyncza wartość, która daje nam dobre pojęcie o tym, jak daleko „typowa” obserwacja w zbiorze danych różni się od wartości średniej.
Jednak stosowanie odchylenia standardowego ma poważną wadę:
Wada nr 1: Na odchylenie standardowe mogą wpływać wartości odstające . Gdy w zbiorze danych występują skrajne wartości odstające, może to zawyżać wartość odchylenia standardowego, a tym samym dawać mylące wyobrażenie o rozkładzie wartości w zbiorze danych.
Poniższe przykłady dostarczają więcej informacji na temat zalet i wad stosowania odchylenia standardowego.
Zaleta nr 1: Odchylenie standardowe wykorzystuje wszystkie obserwacje
Załóżmy, że mamy następujący zbiór danych, który pokazuje rozkład wyników egzaminów uczniów w klasie:
Oceny: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Możemy użyć kalkulatora lub oprogramowania statystycznego, aby stwierdzić, że odchylenie standardowe próbki tego zbioru danych wynosi 8,46.
Zaletą stosowania odchylenia standardowego w tym przykładzie jest to, że wykorzystujemy wszystkie możliwe obserwacje w zbiorze danych, aby znaleźć typowy „rozkład” wartości.
Natomiast do pomiaru rozkładu wartości w tym zbiorze danych moglibyśmy użyć innej metryki, takiej jak rozstęp międzykwartylowy.
Możemy użyć kalkulatora, aby dowiedzieć się, że rozstęp międzykwartylowy wynosi 17,5 . Stanowi to różnicę pomiędzy środkowymi 50% wartości w zbiorze danych.
Załóżmy teraz, że zmienimy najniższą wartość w zbiorze danych na znacznie niższą:
Oceny: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Możemy użyć kalkulatora, aby stwierdzić, że odchylenie standardowe próbki wynosi 18,37 .
Jednak rozstęp międzykwartylowy nadal wynosi 17,5, ponieważ nie ma to wpływu na żadne ze środkowych 50% wartości.
Pokazuje to, że w przeciwieństwie do innych miar rozproszenia, odchylenie standardowe próbki uwzględnia w swoich obliczeniach wszystkie obserwacje ze zbioru danych.
Zaleta nr 2: Odchylenie standardowe jest łatwe do interpretacji
Przypomnij sobie następujący zbiór danych, który pokazuje rozkład wyników egzaminów uczniów w klasie:
Oceny: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Użyliśmy kalkulatora, aby stwierdzić, że odchylenie standardowe próbki tego zbioru danych wynosiło 8,46 .
Łatwo to zinterpretować, ponieważ oznacza po prostu, że odchylenie „typowego” wyniku egzaminu wynosi około 8,46 od średniego wyniku egzaminu.
Z drugiej strony inne miary rozproszenia nie są tak proste do interpretacji.
Na przykład współczynnik zmienności to kolejna miara rozproszenia, która reprezentuje stosunek odchylenia standardowego do średniej próbki.
Współczynnik zmienności: s/x̄
W tym przykładzie średni wynik egzaminu wynosi 81,46, dlatego współczynnik zmienności oblicza się w następujący sposób: 8,46 / 81,46 = 0,104 .
Stanowi to stosunek odchylenia standardowego próbki do średniej próbki, co może być przydatne do porównywania rozkładu wartości w wielu zestawach danych, ale interpretacja go jako metryki samej w sobie nie jest zbyt prosta.
Wada nr 1: Na odchylenie standardowe mogą wpływać wartości odstające
Załóżmy, że mamy następujący zbiór danych zawierający informacje o wynagrodzeniach 10 pracowników (w tysiącach dolarów) w firmie:
Wynagrodzenia: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
Przykładowe odchylenie standardowe wynagrodzeń wynosi około 15,57 .
Załóżmy teraz, że mamy dokładnie ten sam zestaw danych, ale najwyższa pensja jest znacznie wyższa:
Wynagrodzenia: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
Przykładowe odchylenie standardowe wynagrodzeń w tym zbiorze danych wynosi około 262,47 .
Uwzględnienie tylko jednej skrajnej wartości odstającej znacznie wpływa na odchylenie standardowe i obecnie daje mylące wyobrażenie o „typowym” rozkładzie wynagrodzeń.
Uwaga : Jeśli w zbiorze danych występują wartości odstające, rozstęp międzykwartylowy może zapewnić lepszą miarę rozproszenia, ponieważ wartości odstające nie mają na niego wpływu.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat stosowania odchylenia standardowego w statystykach:
Rozstęp międzykwartylowy i odchylenie standardowe: różnica
Współczynnik zmienności a odchylenie standardowe: różnica
Populacja vs. Przykładowe odchylenie standardowe: kiedy używać każdego z nich