R에서 신뢰 구간을 찾는 방법(예제 포함)

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

신뢰구간은 일정 수준의 신뢰도를 갖는 모집단 매개변수가 포함될 가능성이 있는 값의 범위입니다.

이는 다음 일반 공식에 따라 계산됩니다.

신뢰 구간 = (점 추정치) +/- (임계값)* (표준 오차)

이 공식은 하한과 상한이 있는 구간을 생성하며, 여기에는 일정 수준의 신뢰도를 갖는 모집단 모수가 포함될 수 있습니다.

신뢰구간 = [하한, 상한]

이 튜토리얼에서는 R에서 다음 신뢰 구간을 계산하는 방법을 설명합니다.

1. 평균에 대한 신뢰구간

2. 평균 차이에 대한 신뢰 구간

3. 비율에 대한 신뢰구간

4. 비율 차이에 대한 신뢰 구간

갑시다!

예 1: 평균에 대한 신뢰 구간

평균에 대한 신뢰 구간을 계산하려면 다음 공식을 사용합니다.

신뢰구간 = x +/- t _{n-1, 1-α/2} *(s/√n)

금:

x : 표본 평균
t: t 임계값
s: 표본 표준편차
n: 표본 크기

예: 다음 정보를 사용하여 무작위 거북이 샘플을 수집한다고 가정합니다.

표본 크기 n = 25
평균 샘플 중량 x = 300
표본 표준편차 s = 18.5

다음 코드는 거북이 개체군의 실제 평균 체중에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.

 #input sample size, sample mean, and sample standard deviation
n <- 25
xbar <- 300 
s <- 18.5

#calculate margin of error
margin <- qt(0.975,df=n-1)*s/sqrt(n)

#calculate lower and upper bounds of confidence interval
low <- xbar - margin
low

[1] 292.3636

high <- xbar + margin
high

[1] 307.6364

실제 평균 거북이 개체군 체중에 대한 95% 신뢰 구간은 [292.36, 307.64] 입니다.

예 2: 평균 차이에 대한 신뢰 구간

모집단 평균의 차이에 대한 신뢰 구간을 계산하기 위해 다음 공식을 사용합니다.

신뢰 구간 = ( x ₁ – x ₂ ) +/- t*√((s _p ² /n ₁ ) + (s _p ² /n ₂ ))

금:

x ₁ , x ₂ : 표본 1의 평균, 표본 2의 평균
t: 신뢰 수준 및 (n ₁ + n ₂ -2) 자유도를 기반으로 하는 t-임계 값
s _p ² : 합동 분산, ((n ₁ -1)s ₁ ² + (n ₂ -1)s ₂ ² ) / (n ₁ +n ₂ -2)로 계산됨
t: t 임계값
n ₁ , n ₂ : 표본 크기 1, 표본 크기 2

예: 서로 다른 두 종의 거북이 사이의 평균 체중 차이를 추정한다고 가정해 보겠습니다. 따라서 우리는 각 개체군에서 15마리의 거북이를 무작위로 추출합니다. 각 샘플의 요약 데이터는 다음과 같습니다.

샘플 1:

x1 = ₃₁₀
초 ₁ = 18.5
n ₁ = 15

샘플 2:

x2 ₌ 300
_s2 = 16.4
_n2 = 15

다음 코드는 모집단 평균의 실제 차이에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.

 #input sample size, sample mean, and sample standard deviation
n1 <- 15
xbar1 <- 310 
s1 <- 18.5

n2 <- 15
xbar2 <- 300
s2 <- 16.4

#calculate pooled variance
sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2)

#calculate margin of error
margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2)

#calculate lower and upper bounds of confidence interval
low <- (xbar1-xbar2) - margin
low

[1] -3.055445

high <- (xbar1-xbar2) + margin
high

[1] 23.05544

모집단 평균 간의 실제 차이에 대한 95% 신뢰구간은 [-3.06, 23.06] 입니다.

예 3: 비율에 대한 신뢰 구간

비율에 대한 신뢰 구간을 계산하려면 다음 공식을 사용합니다.

신뢰구간 = p +/- z*(√ p(1-p) / n )

금:

p: 표본 비율
z: 선택된 z 값
n: 표본 크기

예: 특정 법률을 선호하는 카운티 주민의 비율을 추정한다고 가정해 보겠습니다. 우리는 주민 100명 중 무작위 표본을 선택하고 법에 대한 그들의 입장이 무엇인지 질문합니다. 결과는 다음과 같습니다.

표본 크기 n = 100
법칙에 찬성하는 비율 p = 0.56

다음 코드는 법을 선호하는 카운티 전체 주민의 실제 비율에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.

 #input sample size and sample proportion
n <- 100
p <- .56

#calculate margin of error
margin <- qnorm(0.975)*sqrt(p*(1-p)/n)

#calculate lower and upper bounds of confidence interval
low <- p - margin
low

[1] 0.4627099

high <- p + margin
high

[1] 0.6572901

법을 선호하는 카운티 전체 주민의 실제 비율에 대한 95% 신뢰 구간은 [.463, .657] 입니다.

예 4: 비율 차이에 대한 신뢰 구간

비율 차이에 대한 신뢰 구간을 계산하려면 다음 공식을 사용합니다.

신뢰 구간 = (p ₁ –p ₂ ) +/- z*√(p ₁ (1-p ₁ )/n ₁ + p ₂ (1-p ₂ )/n ₂ )

금:

p ₁ , p ₂ : 표본 1의 비율, 표본 2의 비율
z: 신뢰 수준에 따른 z 임계값
n ₁ , n ₂ : 표본 크기 1, 표본 크기 2

예: A 카운티의 특정 법률을 지지하는 주민 비율과 B 카운티의 법률을 지지하는 주민 비율 간의 차이를 추정한다고 가정합니다. 다음은 각 샘플에 대한 요약 데이터입니다.

샘플 1:

n ₁ = 100
p ₁ = 0.62(즉, 주민 100명 중 62명이 법을 지지함)

샘플 2:

_n2 = 100
p ₂ = 0.46(즉, 주민 100명 중 46명이 법을 지지함)

다음 코드는 카운티 간 법을 지지하는 주민 비율의 실제 차이에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.

 #input sample sizes and sample proportions
n1 <- 100
p1 <- .62

n2 <- 100
p2 <- .46

#calculate margin of error
margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)

#calculate lower and upper bounds of confidence interval
low <- (p1-p2) - margin
low

[1] 0.02364509


high <- (p1-p2) + margin
high

[1] 0.2963549

카운티 간 법을 지지하는 주민 비율의 실제 차이에 대한 95% 신뢰 구간은 [0.024, 0.296] 입니다.

여기에서 더 많은 R 튜토리얼을 찾을 수 있습니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기