T-검정과 anova의 차이점은 무엇입니까?
이 튜토리얼에서는 t-test 와 ANOVA 의 차이점과 각 테스트를 언제 사용하는지 설명합니다.
T-테스트
t-검정은 두 그룹 의 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. t-검정에는 두 가지 유형이 있습니다.
1. 독립표본 t-검정. 이는 두 그룹의 평균 차이를 비교하고 그룹이 서로 완전히 독립적일 때 사용됩니다.
예를 들어, 연구자들은 다이어트 A 또는 다이어트 B가 사람들의 체중 감량에 도움이 되는지 알고 싶어할 수 있습니다. 무작위로 할당된 100명의 사람들은 다이어트 A에 할당됩니다. 또 다른 무작위로 할당된 100명의 사람들은 다이어트 B에 할당됩니다. 3개월 후에 연구자들은 각 사람의 총 체중 감소를 기록합니다. 두 그룹 간의 평균 체중 감소가 크게 다른지 확인하기 위해 연구자는 독립 표본 t-검정을 수행할 수 있습니다.
2. 쌍을 이루는 표본 t-검정 . 이는 두 그룹의 평균 간의 차이를 비교하고 한 그룹의 각 관측치가 다른 그룹의 관측치와 연관될 수 있는 경우에 사용됩니다.
예를 들어, 한 학급에 20명의 학생이 시험을 보고 특정 가이드를 공부한 후 다시 시험을 본다고 가정해 보겠습니다. 첫 번째 시험 점수와 두 번째 시험 점수의 차이를 비교하기 위해 각 학생의 첫 번째 시험 점수가 두 번째 시험 점수와 연관될 수 있기 때문에 대응 t-검정을 사용합니다.
t-검정이 유효한 결과를 생성하려면 다음 가정이 충족되어야 합니다.
- 무작위: 두 표본 모두에 대한 데이터를 수집하려면 무작위 표본 또는 무작위 실험을 사용해야 합니다.
- 정규: 샘플링 분포가 정규 또는 대략 정규입니다.
이러한 가정이 충족되면 t-검정을 사용하여 두 그룹의 평균 간의 차이를 검정할 수 있습니다.
분산 분석
ANOVA (분산 분석)는 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. 실제로 가장 일반적으로 사용되는 분산 분석 테스트는 일원 분산 분석과 양방향 분산 분석입니다.
일원 분산 분석: 그룹을 단일 요인 으로 분할할 수 있는 경우 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트하는 데 사용됩니다.
예: 90명의 학생으로 구성된 학급을 무작위로 30명의 세 그룹으로 나눕니다. 각 그룹은 한 달 동안 서로 다른 학습 방법을 사용하여 시험을 준비합니다. 월말에는 모든 학생이 동일한 시험을 치릅니다. 학습 방법이 시험 점수에 영향을 미치는지 여부를 알고 싶습니다. 따라서 일원 분산 분석을 수행하여 세 그룹의 평균 점수 간에 통계적으로 유의미한 차이가 있는지 확인합니다.
양방향 ANOVA: 그룹을 두 가지 요소 로 분할할 수 있는 경우 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트하는 데 사용됩니다.
예: 운동 수준(운동 없음, 가벼운 운동, 격렬한 운동)과 성별(남성, 여성)이 체중 감량에 영향을 미치는지 확인하려고 합니다. 이 경우 연구 중인 두 가지 요인은 운동과 성별이고 반응 변수는 체중 감소(파운드로 측정)입니다. 운동과 성별이 체중 감량에 영향을 미치는지 확인하고 운동과 성별이 체중 감량에 상호 작용이 있는지 확인하기 위해 양방향 분산 분석을 수행할 수 있습니다.
ANOVA가 유효한 결과를 생성하려면 다음 가정이 충족되어야 합니다.
- 정규성 – 우리가 연구하는 모든 모집단은 정규 분포를 따릅니다. 따라서 예를 들어 서로 다른 세 그룹의 학생의 시험 점수를 비교하려면 첫 번째 그룹, 두 번째 그룹, 세 번째 그룹의 시험 점수가 모두 정규 분포를 따라야 합니다.
- 등분산 – 각 그룹의 모집단 분산이 동일하거나 거의 동일합니다.
- 독립성 – 각 그룹의 관측값은 서로 독립적이어야 합니다. 일반적으로 무작위 디자인이 이를 처리합니다.
이러한 가정이 충족되면 ANOVA를 사용하여 세 개 이상의 그룹 평균 간의 차이를 테스트할 수 있습니다.
각 테스트의 차이점 이해
t-검정과 ANOVA의 주요 차이점은 두 테스트 모두 그룹 간에 통계적으로 유의한 차이가 있는지 확인하기 위해 테스트 통계를 계산하는 방법입니다.
독립 표본 t-검정은 다음 검정 통계량을 사용합니다.
검정 통계량 t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
여기서 x 1 과 x 2 는 그룹 1과 2에 대한 표본 평균이고, d 는 두 평균 사이의 가상 차이(종종 0임)이고, s 1 2 와 s 2 2 는 그룹 1과 2에 대한 표본 분산입니다. n 1 과 n 2 는 각각 그룹 1과 2의 표본 크기입니다.
대응 표본 t-검정은 다음 검정 통계량을 사용합니다.
검정 통계량 t = d / (s d / √n)
여기서 d 는 두 그룹 간의 평균 차이이고, sd 는 차이의 표준 편차이고, n은 각 그룹의 표본 크기입니다(두 그룹 모두 동일한 표본 크기를 갖습니다).
ANOVA는 다음 테스트 통계를 사용합니다.
검정 통계량 F = s 2 b / s 2 w
여기서 s 2 b 는 표본 간 분산이고 s 2 w 는 표본 내 분산입니다.
t-검정은 두 그룹 간의 평균 차이와 차이의 전체 표준 편차 비율을 측정합니다. 이 비율이 충분히 높으면 두 그룹 사이에 유의한 차이가 있다는 충분한 증거가 됩니다.
반면에 ANOVA는 그룹 내 분산과 비교하여 그룹 간의 분산 비율을 측정합니다. t-검정과 마찬가지로 이 비율이 충분히 높으면 세 그룹의 평균이 동일하지 않다는 충분한 증거를 제공합니다.
t-검정과 ANOVA의 또 다른 주요 차이점은 t-검정을 통해 두 그룹의 평균이 동일한지 여부를 알 수 있다는 것입니다. 반면에 ANOVA는 세 그룹이 모두 동일한 평균을 갖는지 여부를 알려주지만, 어떤 그룹이 서로 다른 평균을 가지고 있는지 명시적으로 알려주지는 않습니다.
어떤 그룹이 서로 다른지 확인하려면 사후 테스트가 필요합니다.
각 테스트를 언제 사용해야 하는지 이해하기
실제로 두 그룹 의 평균을 비교하려면 t 테스트를 사용합니다. 세 개 이상의 그룹 의 평균을 비교하려면 ANOVA를 사용합니다.
우리가 세 개 이상의 그룹의 평균을 비교하기 위해 단순히 여러 t-검정을 사용하지 않는 근본적인 이유는 제1종 오류율을 이해하는 데 있습니다. 세 그룹(그룹 A, 그룹 B, 그룹 C)의 평균을 비교한다고 가정합니다. 다음 세 가지 t-검정을 수행하고 싶을 수도 있습니다.
- 그룹 A와 그룹 B 간의 평균 차이를 비교하는 t 테스트
- 그룹 A와 그룹 C 간의 평균 차이를 비교하는 t 테스트
- 그룹 B와 그룹 C 간의 평균 차이를 비교하기 위한 t 테스트
각 t-검정마다 제1종 오류가 발생할 가능성이 있습니다. 이는 귀무가설이 실제로 참일 때 이를 기각할 확률입니다. 이 확률은 일반적으로 5%입니다. 이는 다중 t-테스트를 수행하면 이 오류율이 증가한다는 것을 의미합니다. 예를 들어:
- 단일 t-검정으로 제1종 오류를 범할 확률은 1 – 0.95 = 0.05 입니다.
- 두 번의 t-검정으로 제1종 오류를 범할 확률은 1 – (0.95 2 ) = 0.0975 입니다.
- 두 번의 t-검정으로 제1종 오류를 범할 확률은 1 – (0.95 3 ) = 0.1427 입니다.
이 오류율은 용납할 수 없을 정도로 높습니다. 다행스럽게도 분산 분석은 이러한 오류를 제어하여 제1종 오류가 5%만 유지되도록 합니다. 이를 통해 우리는 단순히 많은 테스트를 실행하여 얻은 결과가 아니라 통계적으로 유의미한 테스트 결과가 실제로 의미가 있다는 확신을 가질 수 있습니다.
따라서 세 개 이상의 그룹 평균 간에 차이가 있는지 이해하려면 결과가 통계적으로 타당하고 신뢰할 수 있도록 ANOVA를 사용해야 합니다.