T-검정과 anova의 차이점은 무엇입니까?

에 의해 벤자민 앤더슨 7월 29, 2023 가이드 댓글 0개

이 튜토리얼에서는 t-test 와 ANOVA 의 차이점과 각 테스트를 언제 사용하는지 설명합니다.

T-테스트

t-검정은 두 그룹 의 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. t-검정에는 두 가지 유형이 있습니다.

1. 독립표본 t-검정. 이는 두 그룹의 평균 차이를 비교하고 그룹이 서로 완전히 독립적일 때 사용됩니다.

예를 들어, 연구자들은 다이어트 A 또는 다이어트 B가 사람들의 체중 감량에 도움이 되는지 알고 싶어할 수 있습니다. 무작위로 할당된 100명의 사람들은 다이어트 A에 할당됩니다. 또 다른 무작위로 할당된 100명의 사람들은 다이어트 B에 할당됩니다. 3개월 후에 연구자들은 각 사람의 총 체중 감소를 기록합니다. 두 그룹 간의 평균 체중 감소가 크게 다른지 확인하기 위해 연구자는 독립 표본 t-검정을 수행할 수 있습니다.

2. 쌍을 이루는 표본 t-검정 . 이는 두 그룹의 평균 간의 차이를 비교하고 한 그룹의 각 관측치가 다른 그룹의 관측치와 연관될 수 있는 경우에 사용됩니다.

예를 들어, 한 학급에 20명의 학생이 시험을 보고 특정 가이드를 공부한 후 다시 시험을 본다고 가정해 보겠습니다. 첫 번째 시험 점수와 두 번째 시험 점수의 차이를 비교하기 위해 각 학생의 첫 번째 시험 점수가 두 번째 시험 점수와 연관될 수 있기 때문에 대응 t-검정을 사용합니다.

t-검정이 유효한 결과를 생성하려면 다음 가정이 충족되어야 합니다.

무작위: 두 표본 모두에 대한 데이터를 수집하려면 무작위 표본 또는 무작위 실험을 사용해야 합니다.
정규: 샘플링 분포가 정규 또는 대략 정규입니다.

이러한 가정이 충족되면 t-검정을 사용하여 두 그룹의 평균 간의 차이를 검정할 수 있습니다.

분산 분석

ANOVA (분산 분석)는 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. 실제로 가장 일반적으로 사용되는 분산 분석 테스트는 일원 분산 분석과 양방향 분산 분석입니다.

일원 분산 분석: 그룹을 단일 요인 으로 분할할 수 있는 경우 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트하는 데 사용됩니다.

예: 90명의 학생으로 구성된 학급을 무작위로 30명의 세 그룹으로 나눕니다. 각 그룹은 한 달 동안 서로 다른 학습 방법을 사용하여 시험을 준비합니다. 월말에는 모든 학생이 동일한 시험을 치릅니다. 학습 방법이 시험 점수에 영향을 미치는지 여부를 알고 싶습니다. 따라서 일원 분산 분석을 수행하여 세 그룹의 평균 점수 간에 통계적으로 유의미한 차이가 있는지 확인합니다.

양방향 ANOVA: 그룹을 두 가지 요소 로 분할할 수 있는 경우 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트하는 데 사용됩니다.

예: 운동 수준(운동 없음, 가벼운 운동, 격렬한 운동)과 성별(남성, 여성)이 체중 감량에 영향을 미치는지 확인하려고 합니다. 이 경우 연구 중인 두 가지 요인은 운동과 성별이고 반응 변수는 체중 감소(파운드로 측정)입니다. 운동과 성별이 체중 감량에 영향을 미치는지 확인하고 운동과 성별이 체중 감량에 상호 작용이 있는지 확인하기 위해 양방향 분산 분석을 수행할 수 있습니다.

ANOVA가 유효한 결과를 생성하려면 다음 가정이 충족되어야 합니다.

정규성 – 우리가 연구하는 모든 모집단은 정규 분포를 따릅니다. 따라서 예를 들어 서로 다른 세 그룹의 학생의 시험 점수를 비교하려면 첫 번째 그룹, 두 번째 그룹, 세 번째 그룹의 시험 점수가 모두 정규 분포를 따라야 합니다.
등분산 – 각 그룹의 모집단 분산이 동일하거나 거의 동일합니다.
독립성 – 각 그룹의 관측값은 서로 독립적이어야 합니다. 일반적으로 무작위 디자인이 이를 처리합니다.

이러한 가정이 충족되면 ANOVA를 사용하여 세 개 이상의 그룹 평균 간의 차이를 테스트할 수 있습니다.

각 테스트의 차이점 이해

t-검정과 ANOVA의 주요 차이점은 두 테스트 모두 그룹 간에 통계적으로 유의한 차이가 있는지 확인하기 위해 테스트 통계를 계산하는 방법입니다.

독립 표본 t-검정은 다음 검정 통계량을 사용합니다.

검정 통계량 t = [ ( x ₁ – x ₂ ) – d ] / (√ s ² ₁ / n ₁ + s ² ₂ / n ₂ )

여기서 x ₁ 과 x ₂ 는 그룹 1과 2에 대한 표본 평균이고, d 는 두 평균 사이의 가상 차이(종종 0임)이고, s ₁ ² 와 s ₂ ² 는 그룹 1과 2에 대한 표본 분산입니다. n ₁ 과 n ₂ 는 각각 그룹 1과 2의 표본 크기입니다.

대응 표본 t-검정은 다음 검정 통계량을 사용합니다.

검정 통계량 t = d / (s _d / √n)

여기서 d 는 두 그룹 간의 평균 차이이고, _sd 는 차이의 표준 편차이고, n은 각 그룹의 표본 크기입니다(두 그룹 모두 동일한 표본 크기를 갖습니다).

ANOVA는 다음 테스트 통계를 사용합니다.

검정 통계량 F = s ² _b / s ² _w

여기서 s ² _b 는 표본 간 분산이고 s ² _w 는 표본 내 분산입니다.

t-검정은 두 그룹 간의 평균 차이와 차이의 전체 표준 편차 비율을 측정합니다. 이 비율이 충분히 높으면 두 그룹 사이에 유의한 차이가 있다는 충분한 증거가 됩니다.

반면에 ANOVA는 그룹 내 분산과 비교하여 그룹 간의 분산 비율을 측정합니다. t-검정과 마찬가지로 이 비율이 충분히 높으면 세 그룹의 평균이 동일하지 않다는 충분한 증거를 제공합니다.

t-검정과 ANOVA의 또 다른 주요 차이점은 t-검정을 통해 두 그룹의 평균이 동일한지 여부를 알 수 있다는 것입니다. 반면에 ANOVA는 세 그룹이 모두 동일한 평균을 갖는지 여부를 알려주지만, 어떤 그룹이 서로 다른 평균을 가지고 있는지 명시적으로 알려주지는 않습니다.

어떤 그룹이 서로 다른지 확인하려면 사후 테스트가 필요합니다.

각 테스트를 언제 사용해야 하는지 이해하기

실제로 두 그룹 의 평균을 비교하려면 t 테스트를 사용합니다. 세 개 이상의 그룹 의 평균을 비교하려면 ANOVA를 사용합니다.

우리가 세 개 이상의 그룹의 평균을 비교하기 위해 단순히 여러 t-검정을 사용하지 않는 근본적인 이유는 제1종 오류율을 이해하는 데 있습니다. 세 그룹(그룹 A, 그룹 B, 그룹 C)의 평균을 비교한다고 가정합니다. 다음 세 가지 t-검정을 수행하고 싶을 수도 있습니다.

그룹 A와 그룹 B 간의 평균 차이를 비교하는 t 테스트
그룹 A와 그룹 C 간의 평균 차이를 비교하는 t 테스트
그룹 B와 그룹 C 간의 평균 차이를 비교하기 위한 t 테스트

각 t-검정마다 제1종 오류가 발생할 가능성이 있습니다. 이는 귀무가설이 실제로 참일 때 이를 기각할 확률입니다. 이 확률은 일반적으로 5%입니다. 이는 다중 t-테스트를 수행하면 이 오류율이 증가한다는 것을 의미합니다. 예를 들어:

단일 t-검정으로 제1종 오류를 범할 확률은 1 – 0.95 = 0.05 입니다.
두 번의 t-검정으로 제1종 오류를 범할 확률은 1 – (0.95 ² ) = 0.0975 입니다.
두 번의 t-검정으로 제1종 오류를 범할 확률은 1 – (0.95 ³ ) = 0.1427 입니다.

이 오류율은 용납할 수 없을 정도로 높습니다. 다행스럽게도 분산 분석은 이러한 오류를 제어하여 제1종 오류가 5%만 유지되도록 합니다. 이를 통해 우리는 단순히 많은 테스트를 실행하여 얻은 결과가 아니라 통계적으로 유의미한 테스트 결과가 실제로 의미가 있다는 확신을 가질 수 있습니다.

따라서 세 개 이상의 그룹 평균 간에 차이가 있는지 이해하려면 결과가 통계적으로 타당하고 신뢰할 수 있도록 ANOVA를 사용해야 합니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기