Python'da ortalamanın standart hatası nasıl hesaplanır?


Ortalamanın standart hatası, bir veri kümesindeki değerlerin dağılımını ölçmenin bir yoludur. Aşağıdaki şekilde hesaplanır:

Ortalamanın standart hatası = s / √n

Altın:

  • s : numune standart sapması
  • n : örneklem büyüklüğü

Bu eğitimde Python’da bir veri kümesinin ortalamasının standart hatasını hesaplamak için kullanabileceğiniz iki yöntem açıklanmaktadır. Her iki yöntemin de tamamen aynı sonuçları ürettiğini unutmayın.

Yöntem 1: SciPy’yi kullanın

Ortalamanın standart hatasını hesaplamanın ilk yolu SciPy Stats kütüphanesindeki sem() fonksiyonunu kullanmaktır.

Aşağıdaki kod bu işlevin nasıl kullanılacağını gösterir:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]

#calculate standard error of the mean 
sem(data)

2.001447

Ortalamanın standart hatası 2,001447 olarak çıkıyor.

Yöntem 2: NumPy’yi kullanın

Bir veri kümesinin ortalamasının standart hatasını hesaplamanın başka bir yolu da NumPy’nin std() işlevini kullanmaktır.

Popülasyon standart sapmasına karşılık örnek standart sapmayı hesaplamak için bu fonksiyonun argümanında ddof=1 belirtmemiz gerektiğini unutmayın.

Aşağıdaki kod bunun nasıl yapılacağını gösterir:

 import numpy as np

#define dataset
data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29])

#calculate standard error of the mean 
n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data))

2.001447

Yine ortalamanın standart hatası 2,001447 olarak çıkıyor.

Ortalamanın standart hatası nasıl yorumlanır?

Ortalamanın standart hatası basitçe değerlerin ortalama etrafındaki yayılımının bir ölçüsüdür. Ortalamanın standart hatasını yorumlarken akılda tutulması gereken iki şey vardır:

1. Ortalamanın standart hatası ne kadar büyük olursa, bir veri setinde değerler ortalamanın etrafında o kadar dağınık olur.

Bunu göstermek için, önceki veri kümesinin son değerini çok daha büyük bir sayıyla değiştirip değiştirmediğimizi düşünün:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ]

#calculate standard error of the mean 
sem(data)

6.978265

Standart hatanın 2,001447’den 6,978265’e nasıl yükseldiğine dikkat edin. Bu durum, bu veri setindeki değerlerin önceki veri setine göre ortalama etrafında daha fazla dağıldığını göstermektedir.

2. Örneklem büyüklüğü arttıkça ortalamanın standart hatası azalma eğilimindedir.

Bunu göstermek için aşağıdaki iki veri kümesinin ortalamanın standart hatasını düşünün:

 from scipy . stats import week 

#define first dataset and find SEM
data1 = [1, 2, 3, 4, 5]
sem(data1)

0.7071068

#define second dataset and find SEM
data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
sem(data2)

0.4714045

İkinci veri seti basitçe iki kez tekrarlanan ilk veri setidir. Yani her iki veri seti de aynı ortalamaya sahiptir ancak ikinci veri seti daha büyük bir örneklem boyutuna sahiptir ve dolayısıyla standart hatası daha küçüktür.

Ek kaynaklar

R cinsinden ortalamanın standart hatası nasıl hesaplanır?
Excel’de Ortalamanın Standart Hatası Nasıl Hesaplanır?
Google E-Tablolarda ortalamanın standart hatası nasıl hesaplanır?

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir