Vor- und nachteile der verwendung der standardabweichung
Die Standardabweichung eines Datensatzes ist eine Möglichkeit, die typische Abweichung einzelner Werte vom Mittelwert zu messen.
Die Formel zur Berechnung einer Stichprobenstandardabweichung, bezeichnet mit s , lautet:
s = √ Σ(x i – x̄) 2 / (n – 1)
Gold:
- Σ : Ein Symbol, das „Summe“ bedeutet
- x i : Der i- te Wert in einem Datensatz
- x̄ : Das Stichprobenmittel
- n : Die Stichprobengröße
Die Verwendung der Standardabweichung zur Beschreibung der Werteverteilung in einem Datensatz bietet zwei Hauptvorteile:
Vorteil Nr. 1: Die Standardabweichung verwendet bei ihrer Berechnung alle Beobachtungen in einem Datensatz. In der Statistik sagen wir im Allgemeinen, dass es eine gute Sache ist, alle Beobachtungen in einem Datensatz für die Durchführung von Berechnungen verwenden zu können, da wir alle möglichen „Informationen“ verwenden, die im Datensatz verfügbar sind.
Vorteil Nr. 2: Die Standardabweichung ist leicht zu interpretieren . Die Standardabweichung ist ein einzelner Wert, der uns eine gute Vorstellung davon gibt, wie weit die „typische“ Beobachtung in einem Datensatz vom Durchschnittswert entfernt ist.
Allerdings hat die Verwendung der Standardabweichung einen großen Nachteil:
Nachteil Nr. 1: Die Standardabweichung kann durch Ausreißer beeinflusst werden . Wenn in einem Datensatz extreme Ausreißer vorhanden sind, kann dies den Standardabweichungswert erhöhen und so eine irreführende Vorstellung von der Werteverteilung in einem Datensatz vermitteln.
Die folgenden Beispiele bieten weitere Informationen zu den Vor- und Nachteilen der Verwendung der Standardabweichung.
Vorteil Nr. 1: Die Standardabweichung nutzt alle Beobachtungen
Angenommen, wir haben den folgenden Datensatz, der die Verteilung der Prüfungsergebnisse für Schüler einer Klasse zeigt:
Bewertungen: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Wir können einen Taschenrechner oder eine Statistiksoftware verwenden, um herauszufinden, dass die Stichprobenstandardabweichung dieses Datensatzes 8,46 beträgt.
Der Vorteil der Verwendung der Standardabweichung in diesem Beispiel besteht darin, dass wir alle möglichen Beobachtungen im Datensatz verwenden, um die typische „Verteilung“ der Werte zu ermitteln.
Im Gegensatz dazu könnten wir eine andere Metrik wie den Interquartilbereich verwenden, um die Verteilung der Werte in diesem Datensatz zu messen.
Mithilfe eines Taschenrechners können wir ermitteln, dass der Interquartilbereich 17,5 beträgt . Dies stellt die Lücke zwischen den mittleren 50 % der Werte im Datensatz dar.
Nehmen wir nun an, wir ändern den niedrigsten Wert im Datensatz so, dass er viel niedriger ist:
Bewertungen: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Mithilfe eines Taschenrechners können wir ermitteln, dass die Stichprobenstandardabweichung 18,37 beträgt .
Allerdings beträgt der Interquartilabstand immer noch 17,5, da keiner der mittleren 50 % der Werte betroffen ist.
Dies zeigt, dass die Stichprobenstandardabweichung im Gegensatz zu anderen Streuungsmaßen bei ihrer Berechnung alle Beobachtungen im Datensatz berücksichtigt.
Vorteil Nr. 2: Die Standardabweichung ist leicht zu interpretieren
Erinnern Sie sich an den folgenden Datensatz, der die Verteilung der Prüfungsergebnisse für Schüler in einer Klasse zeigt:
Bewertungen: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Mithilfe eines Taschenrechners haben wir herausgefunden, dass die Stichprobenstandardabweichung dieses Datensatzes 8,46 betrug.
Dies ist leicht zu interpretieren, da es lediglich bedeutet, dass die Abweichung eines „typischen“ Prüfungsergebnisses etwa 8,46 vom durchschnittlichen Prüfungsergebnis beträgt.
Andererseits sind andere Streuungsmaße nicht so einfach zu interpretieren.
Beispielsweise ist ein Variationskoeffizient ein weiteres Maß für die Streuung, das das Verhältnis der Standardabweichung zum Stichprobenmittelwert darstellt.
Variationskoeffizient: s/x̄
In diesem Beispiel beträgt die durchschnittliche Prüfungspunktzahl 81,46, sodass der Variationskoeffizient wie folgt berechnet wird: 8,46 / 81,46 = 0,104 .
Dies stellt das Verhältnis der Stichprobenstandardabweichung zum Stichprobenmittelwert dar, was für den Vergleich der Werteverteilung über mehrere Datensätze nützlich sein kann, aber als eigenständige Metrik nicht ganz einfach zu interpretieren ist.
Nachteil Nr. 1: Die Standardabweichung kann durch Ausreißer beeinflusst werden
Angenommen, wir haben den folgenden Datensatz mit Gehaltsinformationen für 10 Mitarbeiter (in Tausend Dollar) in einem Unternehmen:
Gehälter: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
Die Stichprobenstandardabweichung der Gehälter beträgt etwa 15,57 .
Nehmen wir nun an, wir haben genau den gleichen Datensatz, aber das höchste Gehalt ist viel höher:
Gehälter: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
Die Stichprobenstandardabweichung der Gehälter in diesem Datensatz beträgt ungefähr 262,47 .
Durch die Einbeziehung nur eines extremen Ausreißers wird die Standardabweichung stark beeinflusst und vermittelt nun eine irreführende Vorstellung von der „typischen“ Gehaltsverteilung.
Hinweis : Wenn in einem Datensatz Ausreißer vorhanden sind, kann der Interquartilbereich ein besseres Maß für die Streuung liefern, da er von den Ausreißern nicht beeinflusst wird.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zur Verwendung der Standardabweichung in Statistiken:
Interquartilbereich und Standardabweichung: der Unterschied
Variationskoeffizient versus Standardabweichung: die Differenz
Bevölkerung vs. Beispiel-Standardabweichung: Wann jeweils zu verwenden ist