Hoe u de steekproef- en populatievariantie in python kunt berekenen
Variantie is een manier om de verdeling van waarden in een dataset te meten.
De formule voor het berekenen van de populatievariantie is:
σ 2 = Σ (x ik – μ) 2 / N
Goud:
- Σ : Een symbool dat “som” betekent
- μ : Bevolkingsgemiddelde
- x i : Het i- de element van de populatie
- N : Populatieomvang
De formule voor het berekenen van de steekproefvariantie is:
s 2 = Σ (x ik – X ) 2 / (n-1)
Goud:
- x : steekproefgemiddelde
- x i : Het i -de element van het monster
- n : Steekproefgrootte
We kunnen de functies variantie en pvariantie uit de statistiekbibliotheek in Python gebruiken om snel de steekproefvariantie en populatievariantie (respectievelijk) voor een bepaalde tabel te berekenen.
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
De volgende voorbeelden laten zien hoe u elke functie in de praktijk kunt gebruiken.
Voorbeeld 1: Voorbeeldvariantie berekenen in Python
De volgende code laat zien hoe u de voorbeeldvariantie van een tabel in Python kunt berekenen:
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
De steekproefvariantie blijkt 22,067 te zijn.
Voorbeeld 2: Populatievariantie berekenen in Python
De volgende code laat zien hoe je de populatievariantie van een tabel in Python kunt berekenen:
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
De populatievariantie blijkt 20.596 te zijn.
Opmerkingen over het berekenen van de steekproef- en populatievariantie
Houd het volgende in gedachten bij het berekenen van de steekproef- en populatievariantie:
- U moet de populatievariantie berekenen als de dataset waarmee u werkt een gehele populatie vertegenwoordigt, dat wil zeggen elke waarde waarin u geïnteresseerd bent.
- U moet de steekproefvariantie berekenen als de gegevensset waarmee u werkt een steekproef vertegenwoordigt die is genomen uit een grotere populatie waarin u geïnteresseerd bent.
- De steekproefvariantie van een bepaalde gegevenstabel zal altijd groter zijn dan de populatievariantie voor dezelfde gegevenstabel, omdat er meer onzekerheid is bij het berekenen van de steekproefvariantie, dus onze schatting van de variantie zal groter zijn.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere spread-statistieken in Python kunt berekenen:
Hoe het interkwartielbereik in Python te berekenen
Hoe de variatiecoëfficiënt in Python te berekenen
Hoe de standaardafwijking van een lijst in Python te berekenen