R에서 표본 및 모집단 분산을 계산하는 방법

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

분산은 데이터 값이 평균을 중심으로 얼마나 잘 분포되어 있는지를 측정하는 방법입니다.

모집단 의 분산을 구하는 공식은 다음과 같습니다.

σ ² = Σ ( _xi – μ) ² / N

여기서 μ는 모집단 평균, x _i 는 모집단의 i ^번째 요소, N은 모집단 크기, Σ는 “합계”를 의미하는 멋진 기호입니다.

표본 의 분산을 구하는 공식은 다음과 같습니다.

s ² = Σ (x _i – x ) ² / (n-1)

여기서 x 는 표본 평균, x _i 는 i ^번째 표본 요소, n은 표본 크기입니다.

예: R에서 표본 및 모집단 분산 계산

R에 다음과 같은 데이터 세트가 있다고 가정합니다.

 #define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

R의 var() 함수를 사용하여 표본 분산을 계산할 수 있습니다.

 #calculate sample variance
var(data)

[1] 46.01111

그리고 다음과 같이 표본 분산에 (n-1)/n을 간단히 곱하여 모집단 분산을 계산할 수 있습니다.

 #determine length of data
n <- length (data)

#calculate population variance
var(data) * (n-1)/n

[1] 41.41

모집단 분산은 항상 표본 분산보다 작습니다.

실제로 전체 모집단에 대한 데이터를 수집하는 것은 일반적이지 않기 때문에 일반적으로 데이터 세트에 대한 표본 분산을 계산합니다.

예: 여러 열의 표본 분산 계산

R에 다음과 같은 데이터 프레임이 있다고 가정합니다.

 #create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

   ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12

sapply() 함수를 사용하여 데이터 프레임의 각 열에 대한 표본 분산을 계산할 수 있습니다.

 #find sample variance of each column
sapply(data, var)

        ABC
11.696429 18.125000 3.839286

그리고 다음 코드를 사용하여 각 열의 표본 표준 편차를 계산할 수 있습니다. 이는 단순히 표본 분산의 제곱근입니다.

 #find sample standard deviation of each column
sapply(data, sd)

       ABC
3.420004 4.257347 1.959410

여기에서 더 많은 R 튜토리얼을 찾을 수 있습니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예: R에서 표본 및 모집단 분산 계산

예: 여러 열의 표본 분산 계산

저자 소개

벤자민 앤더슨

의견을 추가하다