Hoe de standaardfout van het gemiddelde in python te berekenen


De standaardfout van het gemiddelde is een manier om de verdeling van waarden in een dataset te meten. Het wordt als volgt berekend:

Standaardfout van het gemiddelde = s / √n

Goud:

  • s : standaardafwijking van het monster
  • n : steekproefomvang

In deze tutorial worden twee methoden uitgelegd die u kunt gebruiken om de standaardfout van het gemiddelde van een dataset in Python te berekenen. Merk op dat beide methoden exact dezelfde resultaten opleveren.

Methode 1: Gebruik SciPy

De eerste manier om de standaardfout van het gemiddelde te berekenen is door de functie sem() uit de SciPy Stats-bibliotheek te gebruiken.

De volgende code laat zien hoe u deze functie kunt gebruiken:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]

#calculate standard error of the mean 
sem(data)

2.001447

De standaardfout van het gemiddelde blijkt 2,001447 te zijn.

Methode 2: Gebruik NumPy

Een andere manier om de standaardfout van het gemiddelde van een dataset te berekenen is door de std()- functie van NumPy te gebruiken.

Merk op dat we ddof=1 moeten specificeren in het argument van deze functie om de standaarddeviatie van de steekproef te berekenen, in tegenstelling tot de standaarddeviatie van de populatie.

De volgende code laat zien hoe u dit doet:

 import numpy as np

#define dataset
data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29])

#calculate standard error of the mean 
n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data))

2.001447

Opnieuw blijkt de standaardfout van het gemiddelde 2,001447 te zijn.

Hoe de standaardfout van het gemiddelde te interpreteren

De standaardfout van het gemiddelde is eenvoudigweg een maatstaf voor de spreiding van waarden rond het gemiddelde. Er zijn twee dingen waarmee u rekening moet houden bij het interpreteren van de standaardfout van het gemiddelde:

1. Hoe groter de standaardfout van het gemiddelde, hoe meer verspreid de waarden rond het gemiddelde in een dataset liggen.

Om dit te illustreren, overweeg of we de laatste waarde van de vorige dataset met een veel groter getal veranderen:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ]

#calculate standard error of the mean 
sem(data)

6.978265

Merk op hoe de standaardfout toeneemt van 2.001447 naar 6.978265 . Dit geeft aan dat de waarden in deze dataset meer rond het gemiddelde verdeeld zijn vergeleken met de vorige dataset.

2. Naarmate de steekproefomvang toeneemt, neigt de standaardfout van het gemiddelde af te nemen.

Om dit te illustreren, beschouwen we de standaardfout van het gemiddelde voor de volgende twee sets gegevens:

 from scipy . stats import week 

#define first dataset and find SEM
data1 = [1, 2, 3, 4, 5]
sem(data1)

0.7071068

#define second dataset and find SEM
data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
sem(data2)

0.4714045

De tweede dataset is eenvoudigweg de eerste dataset die twee keer wordt herhaald. Beide datasets hebben dus hetzelfde gemiddelde, maar de tweede dataset heeft een grotere steekproefomvang en heeft daarom een kleinere standaardfout.

Aanvullende bronnen

Hoe de standaardfout van het gemiddelde in R te berekenen
Hoe de standaardfout van het gemiddelde in Excel te berekenen
Hoe de standaardfout van het gemiddelde in Google Spreadsheets te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert