Stichprobenvarianz vs. populationsvarianz: was ist der unterschied?
Varianz ist eine Möglichkeit, die Verteilung von Werten in einem Datensatz zu messen.
Die Formel zur Berechnung der Populationsvarianz lautet:
σ 2 = Σ (x i – μ) 2 / N
Gold:
- Σ : Ein Symbol, das „Summe“ bedeutet
- μ : Bevölkerungsdurchschnitt
- x i : Das i- te Element der Bevölkerung
- N : Bevölkerungsgröße
Die Formel zur Berechnung der Stichprobenvarianz lautet:
s 2 = Σ (x i – x ) 2 / (n-1)
Gold:
- x : Stichprobenmittel
- x i : Das i- te Element der Stichprobe
- n : Stichprobengröße
Beachten Sie, dass zwischen den beiden Formeln nur ein geringfügiger Unterschied besteht:
Wenn wir die Populationsvarianz berechnen, dividieren wir durch N (die Größe der Population).
Wenn wir die Stichprobenvarianz berechnen, dividieren wir durch n-1 (Stichprobengröße – 1).
Bei der Berechnung der Stichprobenvarianz wenden wir die sogenannte Bessel-Korrektur an, bei der wir durch n-1 dividieren.
Ohne uns in mathematischen Details zu verlieren, kann die Division durch n-1 eine unvoreingenommene Schätzung der Populationsvarianz liefern, die ohnehin der Wert ist, der uns normalerweise interessiert.
Wann ist die Stichprobenvarianz im Vergleich zur Populationsvarianz zu berechnen?
Wenn Sie sich nicht sicher sind, ob Sie die Stichprobenvarianz oder die Populationsvarianz berechnen sollen, beachten Sie diese allgemeine Regel:
Sie sollten die Stichprobenvarianz berechnen, wenn der Datensatz, mit dem Sie arbeiten, eine Stichprobe aus einer größeren interessierenden Grundgesamtheit darstellt.
Sie sollten die Populationsvarianz berechnen, wenn der Datensatz, mit dem Sie arbeiten, eine gesamte Population repräsentiert, also jeden Wert, der Sie interessiert.
Die folgenden Beispiele zeigen verschiedene Szenarien zur Berechnung der Stichprobenvarianz im Vergleich zur Populationsvarianz.
Beispiel: Berechnung der Stichprobenvarianz
Angenommen, ein Botaniker möchte die Höhenvariation einer bestimmten Pflanzenart berechnen. Da es in einem Gebiet Tausende von Einzelpflanzen gibt, beschließt sie, eine einfache Zufallsstichprobe von 20 Pflanzen zu entnehmen und jede einzelne Pflanze in ihrer Höhe zu messen.
In diesem Szenario muss der Botaniker die Stichprobenvarianz berechnen, da er an der Varianz der gesamten Pflanzenpopulation interessiert ist, diese Stichprobe jedoch lediglich zur Schätzung der tatsächlichen Populationsvarianz verwendet.
Beispiel: Berechnung der Populationsvarianz
Angenommen, ein Lehrer möchte die Varianz der Prüfungsergebnisse der 20 Schüler seiner Klasse berechnen.
In diesem Szenario muss der Lehrer die Populationsvarianz berechnen, da der Datensatz, mit dem er arbeitet (die 20 Prüfungsergebnisse), die gesamte interessierende Population repräsentiert.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erklärt, wie Stichprobenvarianz und Populationsvarianz in verschiedenen Statistiksoftware berechnet werden:
So berechnen Sie die Stichproben- und Populationsvarianz in Excel
So berechnen Sie die Stichproben- und Populationsvarianz in R
So berechnen Sie die Stichproben- und Populationsvarianz in Python