Eine einfache erklärung zur interpretation der varianz
In der Statistik möchten wir oft verstehen, wie „verteilt“ Werte in einem Datensatz sind. Um dies zu messen, verwenden wir häufig die folgenden Streuungsmaße:
- Bereich: die Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz.
- Der Interquartilbereich: die Differenz zwischen dem ersten Quartil und dem dritten Quartil eines Datensatzes (Quartile sind einfach Werte, die einen Datensatz in vier gleiche Teile teilen).
- Standardabweichung: eine Möglichkeit, den typischen Abstand zwischen Werten und dem Mittelwert zu messen.
- Varianz: Standardabweichung im Quadrat.
Von diesen vier Maßen ist die Varianz in der Regel am schwierigsten intuitiv zu verstehen. Dieser Artikel soll eine einfache Erklärung der Varianz liefern.
Standardabweichung verstehen
Bevor wir die Varianz verstehen können, müssen wir zunächst die Standardabweichung verstehen, die normalerweise mit σ bezeichnet wird.
Die Formel zur Berechnung der Standardabweichung lautet:
σ = √(Σ (x i – μ) 2 / N)
Dabei ist μ der Mittelwert der Grundgesamtheit, x i das i -te Element der Grundgesamtheit, N die Grundgesamtheitsgröße und Σ nur ein ausgefallenes Symbol, das „Summe“ bedeutet.
In der Praxis werden Sie die Standardabweichung selten von Hand berechnen müssen; Stattdessen können Sie eine Statistiksoftware oder einen Taschenrechner verwenden.
Auf der grundlegendsten Ebene gibt uns die Standardabweichung Auskunft über die Verteilung der Datenwerte in einem Datensatz. Um dies zu veranschaulichen, betrachten Sie die folgenden drei Datensätze zusammen mit ihren entsprechenden Standardabweichungen:
[5, 5, 5] Standardabweichung = 0 (überhaupt keine Streuung)
[3, 5, 7] Standardabweichung = 1,63 (einige Abweichungen)
[1, 5, 99] Standardabweichung = 45,28 (viel Streuung)
Der Begriff „Standardabweichung“ kann anhand der beiden Wörter verstanden werden, aus denen er besteht:
- „Abweichung“ – damit ist der Abstand vom Durchschnitt gemeint.
- „Standard“ – hiermit ist der „Standard“ oder „typische“ Abstand zwischen einem Wert und dem Mittelwert gemeint.
Sobald Sie die Standardabweichung verstanden haben, ist es viel einfacher, die Varianz zu verstehen.
Die Lücke verstehen
Die Varianz, üblicherweise mit σ2 bezeichnet, ist einfach das Quadrat der Standardabweichung. Die Formel zum Ermitteln der Varianz eines Datensatzes lautet:
σ 2 = Σ (x i – μ) 2 / N
Dabei ist μ der Mittelwert der Grundgesamtheit, x i das i -te Element der Grundgesamtheit, N die Grundgesamtheitsgröße und Σ nur ein ausgefallenes Symbol, das „Summe“ bedeutet.
Wenn also die Standardabweichung eines Datensatzes 8 beträgt, wäre die Variation 8 2 = 64.
Oder wenn die Standardabweichung eines Datensatzes 10 beträgt, dann wäre die Variation 10 2 = 100.
Oder wenn die Standardabweichung eines Datensatzes 3,7 beträgt, dann wäre die Variation 3,7 2 = 13,69.
Je stärker die Werte in einem Datensatz gestreut sind, desto höher ist die Varianz. Um dies zu veranschaulichen, betrachten Sie die folgenden drei Datensätze zusammen mit ihren entsprechenden Varianzen:
[5, 5, 5] Varianz = 0 (überhaupt keine Streuung)
[3, 5, 7] Varianz = 2,67 (einige Abweichungen)
[1, 5, 99] Varianz = 2.050,67 (viel Streuung)
Wann würden Sie Varianz anstelle von Standardabweichung verwenden?
Nachdem Sie die obigen Erläuterungen zu Standardabweichung und Varianz gelesen haben, fragen Sie sich möglicherweise, wann Sie jemals Varianz anstelle von Standardabweichung verwenden würden, um einen Datensatz zu beschreiben.
Schließlich sagt uns die Standardabweichung den durchschnittlichen Abstand zwischen einem Wert und dem Mittelwert, während die Varianz uns das Quadrat dieses Werts angibt. Es scheint, dass die Standardabweichung viel einfacher zu verstehen und zu interpretieren ist.
In der Realität verwenden Sie fast immer die Standardabweichung, um die Werteverteilung in einem Datensatz zu beschreiben.
Allerdings kann die Varianz nützlich sein, wenn man eine Technik wie ANOVA oder Regression verwendet und versucht, die Gesamtvarianz eines Modells aufgrund spezifischer Faktoren zu erklären.
Beispielsweise möchten Sie vielleicht verstehen, wie viel Varianz in den Testergebnissen durch den IQ erklärt werden kann und wie viel Varianz durch die Lernstunden erklärt werden kann.
Wenn 36 % der Abweichung auf den IQ und 64 % auf die Lernstunden zurückzuführen sind, ist dies leicht zu verstehen. Wenn wir jedoch Standardabweichungen von 6 und 8 verwenden, ist dies viel weniger intuitiv und ergibt im Kontext des Problems wenig Sinn.
Ein weiterer Fall, in dem es möglicherweise besser ist, die Varianz anstelle der Standardabweichung zu verwenden, ist die theoretische statistische Arbeit.
In diesem Fall ist es viel einfacher, die Varianz bei der Berechnung zu verwenden, da Sie kein Quadratwurzelzeichen verwenden müssen.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zur Varianz:
Stichprobenvarianz und Populationsvarianz: Was ist der Unterschied?
So berechnen Sie die Stichproben- und Populationsvarianz in Excel