Hoe de standaardfout van het gemiddelde in python te berekenen
De standaardfout van het gemiddelde is een manier om de verdeling van waarden in een dataset te meten. Het wordt als volgt berekend:
Standaardfout van het gemiddelde = s / √n
Goud:
- s : standaardafwijking van het monster
- n : steekproefomvang
In deze tutorial worden twee methoden uitgelegd die u kunt gebruiken om de standaardfout van het gemiddelde van een dataset in Python te berekenen. Merk op dat beide methoden exact dezelfde resultaten opleveren.
Methode 1: Gebruik SciPy
De eerste manier om de standaardfout van het gemiddelde te berekenen is door de functie sem() uit de SciPy Stats-bibliotheek te gebruiken.
De volgende code laat zien hoe u deze functie kunt gebruiken:
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29] #calculate standard error of the mean sem(data) 2.001447
De standaardfout van het gemiddelde blijkt 2,001447 te zijn.
Methode 2: Gebruik NumPy
Een andere manier om de standaardfout van het gemiddelde van een dataset te berekenen is door de std()- functie van NumPy te gebruiken.
Merk op dat we ddof=1 moeten specificeren in het argument van deze functie om de standaarddeviatie van de steekproef te berekenen, in tegenstelling tot de standaarddeviatie van de populatie.
De volgende code laat zien hoe u dit doet:
import numpy as np #define dataset data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]) #calculate standard error of the mean n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data)) 2.001447
Opnieuw blijkt de standaardfout van het gemiddelde 2,001447 te zijn.
Hoe de standaardfout van het gemiddelde te interpreteren
De standaardfout van het gemiddelde is eenvoudigweg een maatstaf voor de spreiding van waarden rond het gemiddelde. Er zijn twee dingen waarmee u rekening moet houden bij het interpreteren van de standaardfout van het gemiddelde:
1. Hoe groter de standaardfout van het gemiddelde, hoe meer verspreid de waarden rond het gemiddelde in een dataset liggen.
Om dit te illustreren, overweeg of we de laatste waarde van de vorige dataset met een veel groter getal veranderen:
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ] #calculate standard error of the mean sem(data) 6.978265
Merk op hoe de standaardfout toeneemt van 2.001447 naar 6.978265 . Dit geeft aan dat de waarden in deze dataset meer rond het gemiddelde verdeeld zijn vergeleken met de vorige dataset.
2. Naarmate de steekproefomvang toeneemt, neigt de standaardfout van het gemiddelde af te nemen.
Om dit te illustreren, beschouwen we de standaardfout van het gemiddelde voor de volgende twee sets gegevens:
from scipy . stats import week #define first dataset and find SEM data1 = [1, 2, 3, 4, 5] sem(data1) 0.7071068 #define second dataset and find SEM data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5] sem(data2) 0.4714045
De tweede dataset is eenvoudigweg de eerste dataset die twee keer wordt herhaald. Beide datasets hebben dus hetzelfde gemiddelde, maar de tweede dataset heeft een grotere steekproefomvang en heeft daarom een kleinere standaardfout.
Aanvullende bronnen
Hoe de standaardfout van het gemiddelde in R te berekenen
Hoe de standaardfout van het gemiddelde in Excel te berekenen
Hoe de standaardfout van het gemiddelde in Google Spreadsheets te berekenen