So berechnen sie die stichproben- und populationsvarianz in python
Varianz ist eine Möglichkeit, die Verteilung von Werten in einem Datensatz zu messen.
Die Formel zur Berechnung der Populationsvarianz lautet:
σ 2 = Σ (x i – μ) 2 / N
Gold:
- Σ : Ein Symbol, das „Summe“ bedeutet
- μ : Bevölkerungsdurchschnitt
- x i : Das i- te Element der Bevölkerung
- N : Bevölkerungsgröße
Die Formel zur Berechnung der Stichprobenvarianz lautet:
s 2 = Σ (x i – x ) 2 / (n-1)
Gold:
- x : Stichprobenmittel
- x i : Das i- te Element der Stichprobe
- n : Stichprobengröße
Wir können die Varianz- und Pvarianzfunktionen aus der Statistikbibliothek in Python verwenden, um schnell die Stichprobenvarianz bzw. Populationsvarianz für eine bestimmte Tabelle zu berechnen.
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
Die folgenden Beispiele zeigen, wie die einzelnen Funktionen in der Praxis verwendet werden.
Beispiel 1: Berechnung der Stichprobenvarianz in Python
Der folgende Code zeigt, wie man die Stichprobenvarianz einer Tabelle in Python berechnet:
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
Die Stichprobenvarianz beträgt 22,067 .
Beispiel 2: Berechnung der Populationsvarianz in Python
Der folgende Code zeigt, wie die Populationsvarianz einer Tabelle in Python berechnet wird:
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
Die Populationsvarianz beträgt 20.596 .
Hinweise zur Berechnung der Stichproben- und Populationsvarianz
Beachten Sie Folgendes bei der Berechnung der Stichproben- und Populationsvarianz:
- Sie sollten die Populationsvarianz berechnen, wenn der Datensatz, mit dem Sie arbeiten, eine gesamte Population repräsentiert, also jeden Wert, der Sie interessiert.
- Sie sollten die Stichprobenvarianz berechnen, wenn der Datensatz, mit dem Sie arbeiten, eine Stichprobe aus einer größeren interessierenden Grundgesamtheit darstellt.
- Die Stichprobenvarianz einer bestimmten Datentabelle wird immer größer sein als die Populationsvarianz für dieselbe Datentabelle, da bei der Berechnung der Stichprobenvarianz eine größere Unsicherheit besteht, sodass unsere Schätzung der Varianz größer sein wird.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere Spread-Metriken in Python berechnen:
So berechnen Sie den Interquartilbereich in Python
So berechnen Sie den Variationskoeffizienten in Python
So berechnen Sie die Standardabweichung einer Liste in Python