Python'da güven aralıkları nasıl hesaplanır


Bir ortalama için güven aralığı, belirli bir güven düzeyine sahip bir popülasyon ortalamasını içermesi muhtemel bir değer aralığıdır.

Aşağıdaki şekilde hesaplanır:

Güven aralığı = x +/- t*(s/√n)

Altın:

  • x : örnek ortalama
  • t: güven düzeyine karşılık gelen t değeri
  • s: numune standart sapması
  • n: örneklem büyüklüğü

Bu eğitimde Python’da güven aralıklarının nasıl hesaplanacağı açıklanmaktadır.

T dağılımını kullanan güven aralıkları

Küçük bir örnekle (n < 30) çalışıyorsak, popülasyon ortalaması için bir güven aralığı hesaplamak amacıyla scipy.stats kütüphanesindeki t.interval() fonksiyonunu kullanabiliriz.

Aşağıdaki örnek, 15 bitkiden oluşan bir örnek kullanılarak belirli bir bitki türünün gerçek ortalama popülasyon yüksekliğine (inç cinsinden) ilişkin güven aralığının nasıl hesaplanacağını gösterir:

 import numpy as np
import scipy.stats as st

#define sample data
data = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29]

#create 95% confidence interval for population mean weight
st.t.interval(alpha=0.95, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) 

(16.758, 24.042)

Gerçek ortalama popülasyon büyüklüğü için %95 güven aralığı (16.758, 24.042)’ dir.

Güven düzeyi ne kadar yüksek olursa güven aralığının da o kadar geniş olacağını fark edeceksiniz. Örneğin, tam olarak aynı veriler için %99 GA’nın nasıl hesaplanacağı aşağıda açıklanmıştır:

 #create 99% confidence interval for same sample
st.t.interval(alpha= 0.99 , df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) 

(15.348, 25.455)

Gerçek ortalama popülasyon büyüklüğü için %99 güven aralığı (15.348, 25.455)’ tir. Bu aralığın önceki %95 güven aralığından daha geniş olduğunu unutmayın.

Normal dağılım kullanılarak güven aralıkları

Daha büyük örneklerle (n≥30) çalışıyorsak, örnek ortalamasının örnekleme dağılımının normal dağıldığını varsayabilir ( merkezi limit teoremi sayesinde) ve bunun yerine norm fonksiyonunu kullanabiliriz. scipy .stats kütüphanesinden interval() .

Aşağıdaki örnek, 50 bitkiden oluşan bir örnek kullanılarak belirli bir bitki türünün gerçek ortalama popülasyon yüksekliğine (inç cinsinden) ilişkin güven aralığının nasıl hesaplanacağını gösterir:

 import numpy as np
import scipy.stats as st

#define sample data
np.random.seed(0)
data = np.random.randint(10, 30, 50)

#create 95% confidence interval for population mean weight
st.norm.interval(alpha=0.95, loc=np.mean(data), scale=st.sem(data))

(17.40, 21.08)

Gerçek ortalama popülasyon büyüklüğü için %95 güven aralığı (17,40, 21,08)’ dir.

T dağılımında olduğu gibi, daha yüksek güven seviyeleri daha geniş güven aralıklarına yol açar. Örneğin, tam olarak aynı veriler için %99 GA’nın nasıl hesaplanacağı aşağıda açıklanmıştır:

 #create 99% confidence interval for same sample
st.norm.interval(alpha= 0.99 , loc=np.mean(data), scale=st.sem(data))

(16.82, 21.66)

Gerçek ortalama popülasyon büyüklüğü için %95 güven aralığı (17,82, 21,66)’ dır.

Güven aralıkları nasıl yorumlanır?

Bir bitki türünün gerçek ortalama boyuna ilişkin %95 güven aralığımızın şöyle olduğunu varsayalım:

%95 güven aralığı = (16,758, 24,042)

Bu güven aralığını yorumlamanın yolu şu şekildedir:

[16.758, 24.042] güven aralığının popülasyonun gerçek ortalama bitki boyunu içerme olasılığı %95’tir.

Aynı şeyi söylemenin başka bir yolu da, gerçek nüfus ortalamasının %95 güven aralığının dışında olma ihtimalinin yalnızca %5 olduğudur. Yani, gerçek ortalama bitki boyunun 16,758 inçten az veya 24,042 inçten fazla olma ihtimali yalnızca %5’tir.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir