Python에서 평균의 표준 오차를 계산하는 방법
평균의 표준 오차는 데이터 세트의 값 분포를 측정하는 방법입니다. 다음과 같이 계산됩니다.
평균의 표준오차 = s / √n
금:
- s : 표본 표준편차
- n : 표본 크기
이 튜토리얼에서는 Python에서 데이터 세트 평균의 표준 오차를 계산하는 데 사용할 수 있는 두 가지 방법을 설명합니다. 두 방법 모두 정확히 동일한 결과를 생성합니다.
방법 1: SciPy 사용
평균의 표준 오차를 계산하는 첫 번째 방법은 SciPy Stats 라이브러리의 sem() 함수를 사용하는 것입니다.
다음 코드는 이 함수를 사용하는 방법을 보여줍니다.
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29] #calculate standard error of the mean sem(data) 2.001447
평균의 표준오차는 2.001447 로 나타난다.
방법 2: NumPy 사용
데이터 세트 평균의 표준 오차를 계산하는 또 다른 방법은 NumPy의 std() 함수를 사용하는 것입니다.
모집단 표준편차가 아닌 표본 표준편차를 계산하려면 이 함수의 인수에 ddof=1을 지정해야 합니다.
다음 코드는 이를 수행하는 방법을 보여줍니다.
import numpy as np #define dataset data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]) #calculate standard error of the mean n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data)) 2.001447
이번에도 평균의 표준오차는 2.001447 입니다.
평균의 표준오차를 해석하는 방법
평균의 표준 오차는 단순히 평균 주위의 값 분포를 측정한 것입니다. 평균의 표준오차를 해석할 때 염두에 두어야 할 두 가지 사항이 있습니다.
1. 평균의 표준 오차가 클수록 데이터 세트의 평균 주위에 값이 더 많이 흩어져 있습니다.
이를 설명하기 위해 이전 데이터세트의 마지막 값을 훨씬 더 큰 숫자로 변경하는 경우를 고려해보세요.
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ] #calculate standard error of the mean sem(data) 6.978265
표준 오류가 2.001447 에서 6.978265 로 어떻게 증가하는지 확인하세요. 이는 이 데이터세트의 값이 이전 데이터세트에 비해 평균을 중심으로 더 많이 분포되어 있음을 나타냅니다.
2. 표본크기가 커질수록 평균의 표준오차는 감소하는 경향을 보인다.
이를 설명하기 위해 다음 두 데이터 세트에 대한 평균의 표준 오차를 고려하십시오.
from scipy . stats import week #define first dataset and find SEM data1 = [1, 2, 3, 4, 5] sem(data1) 0.7071068 #define second dataset and find SEM data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5] sem(data2) 0.4714045
두 번째 데이터 세트는 단순히 두 번 반복된 첫 번째 데이터 세트입니다. 따라서 두 데이터 세트 모두 평균은 동일하지만 두 번째 데이터 세트의 표본 크기가 더 크므로 표준 오차가 더 작습니다.
추가 리소스
R에서 평균의 표준 오차를 계산하는 방법
Excel에서 평균의 표준 오차를 계산하는 방법
Google 스프레드시트에서 평균의 표준 오차를 계산하는 방법