Python에서 신뢰 구간을 계산하는 방법
평균에 대한 신뢰구간은 일정 수준의 신뢰도를 갖는 모집단 평균이 포함될 가능성이 있는 값의 범위입니다.
다음과 같이 계산됩니다.
신뢰구간 = x +/- t*(s/√n)
금:
- x : 표본 평균
- t: 신뢰수준에 해당하는 t 값
- s: 표본 표준편차
- n: 표본 크기
이 튜토리얼에서는 Python에서 신뢰 구간을 계산하는 방법을 설명합니다.
t 분포를 사용한 신뢰 구간
작은 표본(n < 30)으로 작업하는 경우 scipy.stats 라이브러리의 t.interval() 함수를 사용하여 모집단 평균에 대한 신뢰 구간을 계산할 수 있습니다.
다음 예에서는 15개 식물 표본을 사용하여 특정 식물 종의 실제 평균 개체군 높이(인치)에 대한 신뢰 구간을 계산하는 방법을 보여줍니다.
import numpy as np import scipy.stats as st #define sample data data = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29] #create 95% confidence interval for population mean weight st.t.interval(alpha=0.95, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) (16.758, 24.042)
실제 평균 모집단 크기에 대한 95% 신뢰 구간은 (16.758, 24.042) 입니다.
신뢰 수준이 높을수록 신뢰 구간이 넓어지는 것을 알 수 있습니다. 예를 들어, 정확히 동일한 데이터에 대해 99% CI를 계산하는 방법은 다음과 같습니다.
#create 99% confidence interval for same sample st.t.interval(alpha= 0.99 , df=len(data)-1, loc=np.mean(data), scale=st.sem(data)) (15.348, 25.455)
실제 평균 모집단 크기에 대한 99% 신뢰 구간은 (15.348, 25.455) 입니다. 이 구간은 이전 95% 신뢰 구간보다 넓습니다.
정규 분포를 사용한 신뢰 구간
더 큰 표본(n≥30)으로 작업하는 경우 표본 평균의 표본 분포가 정규 분포( 중심 극한 정리 덕분에)라고 가정할 수 있으며 대신 표준 함수를 사용할 수 있습니다. scipy .stats 라이브러리의 간격()입니다 .
다음 예에서는 50개 식물 표본을 사용하여 특정 식물 종의 실제 평균 개체군 높이(인치)에 대한 신뢰 구간을 계산하는 방법을 보여줍니다.
import numpy as np import scipy.stats as st #define sample data np.random.seed(0) data = np.random.randint(10, 30, 50) #create 95% confidence interval for population mean weight st.norm.interval(alpha=0.95, loc=np.mean(data), scale=st.sem(data)) (17.40, 21.08)
실제 평균 모집단 크기에 대한 95% 신뢰 구간은 (17.40, 21.08) 입니다.
그리고 t 분포와 마찬가지로 신뢰 수준이 높을수록 신뢰 구간이 넓어집니다. 예를 들어, 정확히 동일한 데이터에 대해 99% CI를 계산하는 방법은 다음과 같습니다.
#create 99% confidence interval for same sample st.norm.interval(alpha= 0.99 , loc=np.mean(data), scale=st.sem(data)) (16.82, 21.66)
실제 평균 모집단 크기에 대한 95% 신뢰 구간은 (17.82, 21.66) 입니다.
신뢰 구간을 해석하는 방법
식물 종의 실제 평균 높이에 대한 95% 신뢰 구간이 다음과 같다고 가정합니다.
95% 신뢰 구간 = (16.758, 24.042)
이 신뢰구간을 해석하는 방법은 다음과 같습니다.
[16.758, 24.042]의 신뢰 구간에 모집단의 실제 평균 식물 높이가 포함될 확률은 95%입니다.
같은 말을 다른 방식으로 말하면, 실제 모집단 평균이 95% 신뢰 구간을 벗어날 확률은 5%에 불과합니다. 즉, 실제 평균 식물 높이가 16.758인치보다 작거나 24.042인치보다 클 확률은 5%에 불과합니다.