Python에서 신뢰 구간을 계산하는 방법


평균에 대한 신뢰구간은 일정 수준의 신뢰도를 갖는 모집단 평균이 포함될 가능성이 있는 값의 범위입니다.

다음과 같이 계산됩니다.

신뢰구간 = x +/- t*(s/√n)

금:

  • x : 표본 평균
  • t: 신뢰수준에 해당하는 t 값
  • s: 표본 표준편차
  • n: 표본 크기

이 튜토리얼에서는 Python에서 신뢰 구간을 계산하는 방법을 설명합니다.

t 분포를 사용한 신뢰 구간

작은 표본(n < 30)으로 작업하는 경우 scipy.stats 라이브러리의 t.interval() 함수를 사용하여 모집단 평균에 대한 신뢰 구간을 계산할 수 있습니다.

다음 예에서는 15개 식물 표본을 사용하여 특정 식물 종의 실제 평균 개체군 높이(인치)에 대한 신뢰 구간을 계산하는 방법을 보여줍니다.

 import numpy as np
import scipy.stats as st

#define sample data
data = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29]

#create 95% confidence interval for population mean weight
st.t.interval(alpha=0.95, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) 

(16.758, 24.042)

실제 평균 모집단 크기에 대한 95% 신뢰 구간은 (16.758, 24.042) 입니다.

신뢰 수준이 높을수록 신뢰 구간이 넓어지는 것을 알 수 있습니다. 예를 들어, 정확히 동일한 데이터에 대해 99% CI를 계산하는 방법은 다음과 같습니다.

 #create 99% confidence interval for same sample
st.t.interval(alpha= 0.99 , df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) 

(15.348, 25.455)

실제 평균 모집단 크기에 대한 99% 신뢰 구간은 (15.348, 25.455) 입니다. 이 구간은 이전 95% 신뢰 구간보다 넓습니다.

정규 분포를 사용한 신뢰 구간

더 큰 표본(n≥30)으로 작업하는 경우 표본 평균의 표본 분포가 정규 분포( 중심 극한 정리 덕분에)라고 가정할 수 있으며 대신 표준 함수를 사용할 수 있습니다. scipy .stats 라이브러리의 간격()입니다 .

다음 예에서는 50개 식물 표본을 사용하여 특정 식물 종의 실제 평균 개체군 높이(인치)에 대한 신뢰 구간을 계산하는 방법을 보여줍니다.

 import numpy as np
import scipy.stats as st

#define sample data
np.random.seed(0)
data = np.random.randint(10, 30, 50)

#create 95% confidence interval for population mean weight
st.norm.interval(alpha=0.95, loc=np.mean(data), scale=st.sem(data))

(17.40, 21.08)

실제 평균 모집단 크기에 대한 95% 신뢰 구간은 (17.40, 21.08) 입니다.

그리고 t 분포와 마찬가지로 신뢰 수준이 높을수록 신뢰 구간이 넓어집니다. 예를 들어, 정확히 동일한 데이터에 대해 99% CI를 계산하는 방법은 다음과 같습니다.

 #create 99% confidence interval for same sample
st.norm.interval(alpha= 0.99 , loc=np.mean(data), scale=st.sem(data))

(16.82, 21.66)

실제 평균 모집단 크기에 대한 95% 신뢰 구간은 (17.82, 21.66) 입니다.

신뢰 구간을 해석하는 방법

식물 종의 실제 평균 높이에 대한 95% 신뢰 구간이 다음과 같다고 가정합니다.

95% 신뢰 구간 = (16.758, 24.042)

이 신뢰구간을 해석하는 방법은 다음과 같습니다.

[16.758, 24.042]의 신뢰 구간에 모집단의 실제 평균 식물 높이가 포함될 확률은 95%입니다.

같은 말을 다른 방식으로 말하면, 실제 모집단 평균이 95% 신뢰 구간을 벗어날 확률은 5%에 불과합니다. 즉, 실제 평균 식물 높이가 16.758인치보다 작거나 24.042인치보다 클 확률은 5%에 불과합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다