전체 가이드: r의 가설 테스트
가설 테스트는 통계적 가설을 기각하거나 기각하지 못하는 데 사용하는 공식적인 통계 테스트입니다.
이 튜토리얼에서는 R에서 다음 가설 테스트를 수행하는 방법을 설명합니다.
- 샘플 t 테스트
- 2-표본 T-검정
- 쌍을 이루는 표본 t-검정
R의 t.test() 함수를 사용하여 각 유형의 테스트를 수행할 수 있습니다.
#one sample t-test t. test (x, y = NULL, alternative = c(" two.sided ", " less ", " greater "), mu = 0, paired = FALSE, var.equal = FALSE , conf.level = 0.95, …)
금:
- x, y: 두 개의 데이터 샘플.
- 대안: 검정의 대립 가설입니다.
- mu: 평균의 실제 값입니다.
- paired: paired t-test를 수행할지 여부.
- var.equal: 샘플 간의 분산이 동일하다고 가정할지 여부입니다.
- conf.level: 사용할 신뢰 수준 입니다.
다음 예에서는 이 기능을 실제로 사용하는 방법을 보여줍니다.
예 1: R의 일표본 t-검정
단일 표본 t-검정은 모집단의 평균이 특정 값과 같은지 여부를 검정하는 데 사용됩니다.
예를 들어, 특정 거북이 종의 평균 무게가 310파운드인지 알고 싶다고 가정해 보겠습니다. 우리는 나가서 다음과 같은 가중치를 갖는 간단한 무작위 거북이 샘플을 수집합니다.
중량 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
다음 코드는 R에서 이 t-테스트 예제를 수행하는 방법을 보여줍니다.
#define vector of turtle weights turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) #perform one sample t-test t. test (x=turtle_weights,mu=310) One Sample t-test data: turtle_weights t = -1.5848, df = 12, p-value = 0.139 alternative hypothesis: true mean is not equal to 310 95 percent confidence interval: 303.4236 311.0379 sample estimates: mean of x 307.2308
결과에서 우리는 다음을 볼 수 있습니다:
- t-검정 통계: -1.5848
- 자유도: 12
- p-값: 0.139
- 실제 평균에 대한 95% 신뢰 구간: [303.4236, 311.0379]
- 거북이의 평균 체중: 307,230마리
검정의 p-값(0.139)이 0.05 이상이므로 귀무가설을 기각할 수 없습니다.
이는 이 거북 종의 평균 체중이 310파운드가 아니라고 말할 수 있는 충분한 증거가 없다는 것을 의미합니다.
예 2: R의 2-표본 t-검정
2-표본 t-검정은 두 모집단의 평균이 같은지 여부를 검정하는 데 사용됩니다.
예를 들어, 서로 다른 두 종의 거북이의 평균 체중이 같은지 여부를 알고 싶다고 가정해 보겠습니다. 이를 테스트하기 위해 우리는 다음과 같은 가중치를 사용하여 각 종에서 단순 무작위 거북이 샘플을 수집합니다.
샘플 1 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
샘플 2 : 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305
다음 코드는 R에서 이러한 두 가지 t-테스트 예제를 수행하는 방법을 보여줍니다.
#define vector of turtle weights for each sample sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305) #perform two sample t-tests t. test (x = sample1, y = sample2) Welch Two Sample t-test data: sample1 and sample2 t = -2.1009, df = 19.112, p-value = 0.04914 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.73862953 -0.03060124 sample estimates: mean of x mean of y 307.2308 314.6154
결과에서 우리는 다음을 볼 수 있습니다:
- t-검정 통계: -2.1009
- 자유도: 19,112
- p-값: 0.04914
- 실제 평균 차이에 대한 95% 신뢰 구간: [-14.74, -0.03]
- 샘플 1의 평균 중량: 307.2308
- 샘플 2의 평균 중량: 314.6154
검정의 p-값(0.04914)이 0.05보다 작으므로 귀무가설을 기각합니다.
이는 두 종 사이의 평균 체중이 동일하지 않다고 말할 수 있는 충분한 증거가 있음을 의미합니다.
예 3: R의 대응표본 t-검정
쌍표본 t-검정은 한 표본의 각 관측치가 다른 표본의 관측치와 연관될 수 있는 경우 두 표본의 평균을 비교하는 데 사용됩니다.
예를 들어, 특정 훈련 프로그램이 농구 선수의 최대 수직 점프(인치)를 증가시킬 수 있는지 여부를 알고 싶다고 가정해 보겠습니다.
이를 테스트하기 위해 12명의 대학 농구 선수로 구성된 단순 무작위 표본을 모집하고 각각의 최대 수직 점프를 측정할 수 있습니다. 그런 다음 각 선수에게 한 달 동안 훈련 프로그램을 사용하게 한 다음 월말에 최대 수직 점프를 다시 측정할 수 있습니다.
다음 데이터는 각 선수의 훈련 프로그램 사용 전후의 최대 점프 높이(인치)를 보여줍니다.
전면 : 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21
이후 : 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20
다음 코드는 R에서 이 대응표본 t-검정을 수행하는 방법을 보여줍니다.
#define before and after max jump heights before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21) after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20) #perform paired samples t-test t. test (x = before, y = after, paired = TRUE ) Paired t-test data: before and after t = -2.5289, df = 11, p-value = 0.02803 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.3379151 -0.1620849 sample estimates: mean of the differences -1.25
결과에서 우리는 다음을 볼 수 있습니다:
- t-검정 통계: -2.5289
- 자유도: 11
- p-값: 0.02803
- 실제 평균 차이에 대한 95% 신뢰 구간: [-2.34, -0.16]
- 전후의 평균 차이: -1.25
검정의 p-값(0.02803)이 0.05보다 작으므로 귀무가설을 기각합니다.
이는 훈련 프로그램 사용 전과 후의 평균 점프 높이가 동일하지 않다고 말할 수 있는 충분한 증거가 있음을 의미합니다.
추가 리소스
다음 온라인 계산기를 사용하여 다양한 t-검정을 자동으로 수행하세요.