T-검정과 anova의 차이점은 무엇입니까?


이 튜토리얼에서는 t-testANOVA 의 차이점과 각 테스트를 언제 사용하는지 설명합니다.

T-테스트

t-검정은 두 그룹 의 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. t-검정에는 두 가지 유형이 있습니다.

1. 독립표본 t-검정. 이는 두 그룹의 평균 차이를 비교하고 그룹이 서로 완전히 독립적일 때 사용됩니다.

예를 들어, 연구자들은 다이어트 A 또는 다이어트 B가 사람들의 체중 감량에 도움이 되는지 알고 싶어할 수 있습니다. 무작위로 할당된 100명의 사람들은 다이어트 A에 할당됩니다. 또 다른 무작위로 할당된 100명의 사람들은 다이어트 B에 할당됩니다. 3개월 후에 연구자들은 각 사람의 총 체중 감소를 기록합니다. 두 그룹 간의 평균 체중 감소가 크게 다른지 확인하기 위해 연구자는 독립 표본 t-검정을 수행할 수 있습니다.

2. 쌍을 이루는 표본 t-검정 . 이는 두 그룹의 평균 간의 차이를 비교하고 한 그룹의 각 관측치가 다른 그룹의 관측치와 연관될 수 있는 경우에 사용됩니다.

예를 들어, 한 학급에 20명의 학생이 시험을 보고 특정 가이드를 공부한 후 다시 시험을 본다고 가정해 보겠습니다. 첫 번째 시험 점수와 두 번째 시험 점수의 차이를 비교하기 위해 각 학생의 첫 번째 시험 점수가 두 번째 시험 점수와 연관될 수 있기 때문에 대응 t-검정을 사용합니다.

t-검정이 유효한 결과를 생성하려면 다음 가정이 충족되어야 합니다.

  • 무작위: 두 표본 모두에 대한 데이터를 수집하려면 무작위 표본 또는 무작위 실험을 사용해야 합니다.
  • 정규: 샘플링 분포가 정규 또는 대략 정규입니다.

이러한 가정이 충족되면 t-검정을 사용하여 두 그룹의 평균 간의 차이를 검정할 수 있습니다.

분산 분석

ANOVA (분산 분석)는 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 확인하는 데 사용됩니다. 실제로 가장 일반적으로 사용되는 분산 분석 테스트는 일원 분산 분석과 양방향 분산 분석입니다.

일원 분산 분석: 그룹을 단일 요인 으로 분할할 수 있는 경우 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트하는 데 사용됩니다.

예: 90명의 학생으로 구성된 학급을 무작위로 30명의 세 그룹으로 나눕니다. 각 그룹은 한 달 동안 서로 다른 학습 방법을 사용하여 시험을 준비합니다. 월말에는 모든 학생이 동일한 시험을 치릅니다. 학습 방법이 시험 점수에 영향을 미치는지 여부를 알고 싶습니다. 따라서 일원 분산 분석을 수행하여 세 그룹의 평균 점수 간에 통계적으로 유의미한 차이가 있는지 확인합니다.

양방향 ANOVA: 그룹을 두 가지 요소 로 분할할 수 있는 경우 세 개 이상의 그룹 평균 간에 통계적으로 유의미한 차이가 있는지 여부를 테스트하는 데 사용됩니다.

예: 운동 수준(운동 없음, 가벼운 운동, 격렬한 운동)과 성별(남성, 여성)이 체중 감량에 영향을 미치는지 확인하려고 합니다. 이 경우 연구 중인 두 가지 요인은 운동과 성별이고 반응 변수는 체중 감소(파운드로 측정)입니다. 운동과 성별이 체중 감량에 영향을 미치는지 확인하고 운동과 성별이 체중 감량에 상호 작용이 있는지 확인하기 위해 양방향 분산 분석을 수행할 수 있습니다.

ANOVA가 유효한 결과를 생성하려면 다음 가정이 충족되어야 합니다.

  • 정규성 – 우리가 연구하는 모든 모집단은 정규 분포를 따릅니다. 따라서 예를 들어 서로 다른 세 그룹의 학생의 시험 점수를 비교하려면 첫 번째 그룹, 두 번째 그룹, 세 번째 그룹의 시험 점수가 모두 정규 분포를 따라야 합니다.
  • 등분산 – 각 그룹의 모집단 분산이 동일하거나 거의 동일합니다.
  • 독립성 – 각 그룹의 관측값은 서로 독립적이어야 합니다. 일반적으로 무작위 디자인이 이를 처리합니다.

이러한 가정이 충족되면 ANOVA를 사용하여 세 개 이상의 그룹 평균 간의 차이를 테스트할 수 있습니다.

각 테스트의 차이점 이해

t-검정과 ANOVA의 주요 차이점은 두 테스트 모두 그룹 간에 통계적으로 유의한 차이가 있는지 확인하기 위해 테스트 통계를 계산하는 방법입니다.

독립 표본 t-검정은 다음 검정 통계량을 사용합니다.

검정 통계량 t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

여기서 x 1x 2 는 그룹 1과 2에 대한 표본 평균이고, d 는 두 평균 사이의 가상 차이(종종 0임)이고, s 1 2 와 s 2 2 는 그룹 1과 2에 대한 표본 분산입니다. n 1 과 n 2 는 각각 그룹 1과 2의 표본 크기입니다.

대응 표본 t-검정은 다음 검정 통계량을 사용합니다.

검정 통계량 t = d / (s d / √n)

여기서 d 는 두 그룹 간의 평균 차이이고, sd 는 차이의 표준 편차이고, n은 각 그룹의 표본 크기입니다(두 그룹 모두 동일한 표본 크기를 갖습니다).

ANOVA는 다음 테스트 통계를 사용합니다.

검정 통계량 F = s 2 b / s 2 w

여기서 s 2 b 는 표본 간 분산이고 s 2 w 는 표본 내 분산입니다.

t-검정은 두 그룹 간의 평균 차이와 차이의 전체 표준 편차 비율을 측정합니다. 이 비율이 충분히 높으면 두 그룹 사이에 유의한 차이가 있다는 충분한 증거가 됩니다.

반면에 ANOVA는 그룹 내 분산과 비교하여 그룹 간의 분산 비율을 측정합니다. t-검정과 마찬가지로 이 비율이 충분히 높으면 세 그룹의 평균이 동일하지 않다는 충분한 증거를 제공합니다.

t-검정과 ANOVA의 또 다른 주요 차이점은 t-검정을 통해 두 그룹의 평균이 동일한지 여부를 알 수 있다는 것입니다. 반면에 ANOVA는 세 그룹이 모두 동일한 평균을 갖는지 여부를 알려주지만, 어떤 그룹이 서로 다른 평균을 가지고 있는지 명시적으로 알려주지는 않습니다.

어떤 그룹이 서로 다른지 확인하려면 사후 테스트가 필요합니다.

각 테스트를 언제 사용해야 하는지 이해하기

실제로 그룹 의 평균을 비교하려면 t 테스트를 사용합니다. 세 개 이상의 그룹 의 평균을 비교하려면 ANOVA를 사용합니다.

우리가 세 개 이상의 그룹의 평균을 비교하기 위해 단순히 여러 t-검정을 사용하지 않는 근본적인 이유는 제1종 오류율을 이해하는 데 있습니다. 세 그룹(그룹 A, 그룹 B, 그룹 C)의 평균을 비교한다고 가정합니다. 다음 세 가지 t-검정을 수행하고 싶을 수도 있습니다.

  • 그룹 A와 그룹 B 간의 평균 차이를 비교하는 t 테스트
  • 그룹 A와 그룹 C 간의 평균 차이를 비교하는 t 테스트
  • 그룹 B와 그룹 C 간의 평균 차이를 비교하기 위한 t 테스트

각 t-검정마다 제1종 오류가 발생할 가능성이 있습니다. 이는 귀무가설이 실제로 참일 때 이를 기각할 확률입니다. 이 확률은 일반적으로 5%입니다. 이는 다중 t-테스트를 수행하면 이 오류율이 증가한다는 것을 의미합니다. 예를 들어:

  • 단일 t-검정으로 제1종 오류를 범할 확률은 1 – 0.95 = 0.05 입니다.
  • 두 번의 t-검정으로 제1종 오류를 범할 확률은 1 – (0.95 2 ) = 0.0975 입니다.
  • 두 번의 t-검정으로 제1종 오류를 범할 확률은 1 – (0.95 3 ) = 0.1427 입니다.

이 오류율은 용납할 수 없을 정도로 높습니다. 다행스럽게도 분산 분석은 이러한 오류를 제어하여 제1종 오류가 5%만 유지되도록 합니다. 이를 통해 우리는 단순히 많은 테스트를 실행하여 얻은 결과가 아니라 통계적으로 유의미한 테스트 결과가 실제로 의미가 있다는 확신을 가질 수 있습니다.

따라서 세 개 이상의 그룹 평균 간에 차이가 있는지 이해하려면 결과가 통계적으로 타당하고 신뢰할 수 있도록 ANOVA를 사용해야 합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다