R에서 신뢰 구간을 찾는 방법(예제 포함)
신뢰구간은 일정 수준의 신뢰도를 갖는 모집단 매개변수가 포함될 가능성이 있는 값의 범위입니다.
이는 다음 일반 공식에 따라 계산됩니다.
신뢰 구간 = (점 추정치) +/- (임계값)* (표준 오차)
이 공식은 하한과 상한이 있는 구간을 생성하며, 여기에는 일정 수준의 신뢰도를 갖는 모집단 모수가 포함될 수 있습니다.
신뢰구간 = [하한, 상한]
이 튜토리얼에서는 R에서 다음 신뢰 구간을 계산하는 방법을 설명합니다.
1. 평균에 대한 신뢰구간
2. 평균 차이에 대한 신뢰 구간
3. 비율에 대한 신뢰구간
4. 비율 차이에 대한 신뢰 구간
갑시다!
예 1: 평균에 대한 신뢰 구간
평균에 대한 신뢰 구간을 계산하려면 다음 공식을 사용합니다.
신뢰구간 = x +/- t n-1, 1-α/2 *(s/√n)
금:
- x : 표본 평균
- t: t 임계값
- s: 표본 표준편차
- n: 표본 크기
예: 다음 정보를 사용하여 무작위 거북이 샘플을 수집한다고 가정합니다.
- 표본 크기 n = 25
- 평균 샘플 중량 x = 300
- 표본 표준편차 s = 18.5
다음 코드는 거북이 개체군의 실제 평균 체중에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.
#input sample size, sample mean, and sample standard deviation n <- 25 xbar <- 300 s <- 18.5 #calculate margin of error margin <- qt(0.975,df=n-1)*s/sqrt(n) #calculate lower and upper bounds of confidence interval low <- xbar - margin low [1] 292.3636 high <- xbar + margin high [1] 307.6364
실제 평균 거북이 개체군 체중에 대한 95% 신뢰 구간은 [292.36, 307.64] 입니다.
예 2: 평균 차이에 대한 신뢰 구간
모집단 평균의 차이에 대한 신뢰 구간을 계산하기 위해 다음 공식을 사용합니다.
신뢰 구간 = ( x 1 – x 2 ) +/- t*√((s p 2 /n 1 ) + (s p 2 /n 2 ))
금:
- x 1 , x 2 : 표본 1의 평균, 표본 2의 평균
- t: 신뢰 수준 및 (n 1 + n 2 -2) 자유도를 기반으로 하는 t-임계 값
- s p 2 : 합동 분산, ((n 1 -1)s 1 2 + (n 2 -1)s 2 2 ) / (n 1 +n 2 -2)로 계산됨
- t: t 임계값
- n 1 , n 2 : 표본 크기 1, 표본 크기 2
예: 서로 다른 두 종의 거북이 사이의 평균 체중 차이를 추정한다고 가정해 보겠습니다. 따라서 우리는 각 개체군에서 15마리의 거북이를 무작위로 추출합니다. 각 샘플의 요약 데이터는 다음과 같습니다.
샘플 1:
- x1 = 310
- 초 1 = 18.5
- n 1 = 15
샘플 2:
- x2 = 300
- s2 = 16.4
- n2 = 15
다음 코드는 모집단 평균의 실제 차이에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.
#input sample size, sample mean, and sample standard deviation n1 <- 15 xbar1 <- 310 s1 <- 18.5 n2 <- 15 xbar2 <- 300 s2 <- 16.4 #calculate pooled variance sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2) #calculate margin of error margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2) #calculate lower and upper bounds of confidence interval low <- (xbar1-xbar2) - margin low [1] -3.055445 high <- (xbar1-xbar2) + margin high [1] 23.05544
모집단 평균 간의 실제 차이에 대한 95% 신뢰구간은 [-3.06, 23.06] 입니다.
예 3: 비율에 대한 신뢰 구간
비율에 대한 신뢰 구간을 계산하려면 다음 공식을 사용합니다.
신뢰구간 = p +/- z*(√ p(1-p) / n )
금:
- p: 표본 비율
- z: 선택된 z 값
- n: 표본 크기
예: 특정 법률을 선호하는 카운티 주민의 비율을 추정한다고 가정해 보겠습니다. 우리는 주민 100명 중 무작위 표본을 선택하고 법에 대한 그들의 입장이 무엇인지 질문합니다. 결과는 다음과 같습니다.
- 표본 크기 n = 100
- 법칙에 찬성하는 비율 p = 0.56
다음 코드는 법을 선호하는 카운티 전체 주민의 실제 비율에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.
#input sample size and sample proportion n <- 100 p <- .56 #calculate margin of error margin <- qnorm(0.975)*sqrt(p*(1-p)/n) #calculate lower and upper bounds of confidence interval low <- p - margin low [1] 0.4627099 high <- p + margin high [1] 0.6572901
법을 선호하는 카운티 전체 주민의 실제 비율에 대한 95% 신뢰 구간은 [.463, .657] 입니다.
예 4: 비율 차이에 대한 신뢰 구간
비율 차이에 대한 신뢰 구간을 계산하려면 다음 공식을 사용합니다.
신뢰 구간 = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )
금:
- p 1 , p 2 : 표본 1의 비율, 표본 2의 비율
- z: 신뢰 수준에 따른 z 임계값
- n 1 , n 2 : 표본 크기 1, 표본 크기 2
예: A 카운티의 특정 법률을 지지하는 주민 비율과 B 카운티의 법률을 지지하는 주민 비율 간의 차이를 추정한다고 가정합니다. 다음은 각 샘플에 대한 요약 데이터입니다.
샘플 1:
- n 1 = 100
- p 1 = 0.62(즉, 주민 100명 중 62명이 법을 지지함)
샘플 2:
- n2 = 100
- p 2 = 0.46(즉, 주민 100명 중 46명이 법을 지지함)
다음 코드는 카운티 간 법을 지지하는 주민 비율의 실제 차이에 대한 95% 신뢰 구간을 계산하는 방법을 보여줍니다.
#input sample sizes and sample proportions n1 <- 100 p1 <- .62 n2 <- 100 p2 <- .46 #calculate margin of error margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2) #calculate lower and upper bounds of confidence interval low <- (p1-p2) - margin low [1] 0.02364509 high <- (p1-p2) + margin high [1] 0.2963549
카운티 간 법을 지지하는 주민 비율의 실제 차이에 대한 95% 신뢰 구간은 [0.024, 0.296] 입니다.
여기에서 더 많은 R 튜토리얼을 찾을 수 있습니다.