So berechnen sie die stichproben- und populationsvarianz in python

Von Dr. Benjamin Anderson Juli 23, 2023 Führung Keine Kommentare

Varianz ist eine Möglichkeit, die Verteilung von Werten in einem Datensatz zu messen.

Die Formel zur Berechnung der Populationsvarianz lautet:

σ ² = Σ (x _i – μ) ² / N

Gold:

Σ : Ein Symbol, das „Summe“ bedeutet
μ : Bevölkerungsdurchschnitt
x _i : Das i- ^te Element der Bevölkerung
N : Bevölkerungsgröße

Die Formel zur Berechnung der Stichprobenvarianz lautet:

s ² = Σ (x _i – x ) ² / (n-1)

Gold:

x : Stichprobenmittel
x _i : Das i- ^te Element der Stichprobe
n : Stichprobengröße

Wir können die Varianz- und Pvarianzfunktionen aus der Statistikbibliothek in Python verwenden, um schnell die Stichprobenvarianz bzw. Populationsvarianz für eine bestimmte Tabelle zu berechnen.

 from statistics import variance, pvariance

#calculate sample variance
variance(s)

#calculate population variance
pvariance(x)

Die folgenden Beispiele zeigen, wie die einzelnen Funktionen in der Praxis verwendet werden.

Beispiel 1: Berechnung der Stichprobenvarianz in Python

Der folgende Code zeigt, wie man die Stichprobenvarianz einer Tabelle in Python berechnet:

 from statistics import variance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
variance(data)

22,067

Die Stichprobenvarianz beträgt 22,067 .

Beispiel 2: Berechnung der Populationsvarianz in Python

Der folgende Code zeigt, wie die Populationsvarianz einer Tabelle in Python berechnet wird:

 from statistics import pvariance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
pvariance(data)

20,596

Die Populationsvarianz beträgt 20.596 .

Hinweise zur Berechnung der Stichproben- und Populationsvarianz

Beachten Sie Folgendes bei der Berechnung der Stichproben- und Populationsvarianz:

Sie sollten die Populationsvarianz berechnen, wenn der Datensatz, mit dem Sie arbeiten, eine gesamte Population repräsentiert, also jeden Wert, der Sie interessiert.
Sie sollten die Stichprobenvarianz berechnen, wenn der Datensatz, mit dem Sie arbeiten, eine Stichprobe aus einer größeren interessierenden Grundgesamtheit darstellt.
Die Stichprobenvarianz einer bestimmten Datentabelle wird immer größer sein als die Populationsvarianz für dieselbe Datentabelle, da bei der Berechnung der Stichprobenvarianz eine größere Unsicherheit besteht, sodass unsere Schätzung der Varianz größer sein wird.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere Spread-Metriken in Python berechnen:

So berechnen Sie den Interquartilbereich in Python
So berechnen Sie den Variationskoeffizienten in Python
So berechnen Sie die Standardabweichung einer Liste in Python

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen