통계적 중요성과 실제적 중요성에 대한 간단한 설명


통계적 가설은 모집단 매개변수 에 대한 가정입니다. 예를 들어, 특정 카운티의 남성 평균 키가 68인치라고 가정할 수 있습니다. 키에 관한 가설은 통계적 가설 이고 미국 남성의 실제 평균 키는 인구 매개변수 입니다.

가설 테스트는 통계적 가설을 기각하거나 기각하지 못하는 데 사용하는 공식적인 통계 테스트입니다. 가설 검정을 수행하기 위해 모집단에서 무작위 표본을 얻고 귀무가설이 실제로 참일 경우 표본의 데이터가 발생할 가능성이 있는지 여부를 결정합니다.

이 가설 하에서 표본 데이터가 충분히 개연성이 없으면 귀무 가설을 기각하고 효과가 존재한다는 결론을 내릴 수 있습니다.

0이 참이라고 가정할 때 표본 데이터가 “충분히 불가능”한지 여부를 결정하는 방법은 특정 유의 수준(보통 0.01, 0.05 또는 0.10으로 선택됨)을 설정한 다음 가설 검정의 p-값이 더 작은지 확인하는 것입니다. 이 정도의 의미보다.

p-값이 유의 수준보다 작으면 결과가 통계적으로 유의하다고 말합니다. 단지 어떤 효과가 존재한다는 의미일 뿐, 반드시 그 효과가 현실 세계에서 실제로 실용적이라는 의미는 아닙니다. 결과는 실제로 유의미 하지는 않지만 통계적으로 유의미할 수 있습니다.

관련 항목: P값과 통계적 유의성에 대한 설명

실질적인 중요성

가설검증은 효과크기가 작음에도 불구하고 통계적으로 유의미한 결과를 도출하는 것이 가능하다. 작은 효과 크기가 낮은(따라서 통계적으로 유의미한) p-값을 생성할 수 있는 두 가지 주요 방법이 있습니다.

1. 샘플링된 데이터의 변동성은 매우 낮습니다. 표본 데이터의 변동성이 낮은 경우 가설 검정을 통해 모집단 효과에 대한 보다 정확한 추정치를 생성할 수 있으므로 검정에서 작은 효과도 탐지할 수 있습니다.

예를 들어, 평균 시험 점수가 학교 간에 크게 다른지 여부를 확인하기 위해 서로 다른 두 학교의 학생 20명의 시험 점수를 보여주는 다음 두 표본에 대해 독립적인 2-표본 t-검정을 수행한다고 가정합니다.

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

표본 1의 평균은 85.55 이고 표본 2의 평균은 86.40 입니다. 독립 2-표본 t-검정을 수행하면 검정 통계량이 -5.3065 이고 해당 p-값이 <0.0001 인 것으로 나타났습니다. 테스트 결과의 차이는 통계적으로 유의미합니다.

두 표본의 평균 시험점수 차이는 0.85 에 불과하지만, 학교별 시험점수의 변동성이 낮아 통계적으로 유의미한 결과를 가져온다. 점수의 표준 편차는 표본 1의 경우 0.51 이고 표본 2의 경우 0.50 입니다.

이러한 낮은 변동성은 가설 검정이 점수 간의 작은 차이를 감지하고 그 차이가 통계적으로 유의할 수 있도록 허용한 것입니다.

낮은 변동성이 통계적으로 유의미한 결론을 도출할 수 있는 근본적인 이유는 독립 2표본 t-검정에 대한 t- 검정 통계량이 다음과 같이 계산되기 때문입니다.

검정 통계량 t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

여기서 s 2 1 과 s 2 2 는 각각 표본 1과 표본 2에 대한 표본 변동을 나타냅니다. 이 두 숫자가 작으면 t- 검정 통계의 정수 분모도 작습니다.

그리고 작은 숫자로 나누면 큰 숫자가 나옵니다. 이는 t- 검정 통계량이 크고 해당 p-값이 작으므로 통계적으로 유의미한 결과가 나온다는 것을 의미합니다.

2. 표본 크기가 매우 큽니다. 표본 크기가 클수록 가설 검정의 통계적 검정력이 커지므로 작은 효과라도 탐지할 수 있습니다. 이는 실제적인 의미가 없을 수 있는 작은 효과에도 불구하고 통계적으로 유의미한 결과를 가져올 수 있습니다.

예를 들어, 평균 시험 점수가 학교 간에 크게 다른지 여부를 확인하기 위해 서로 다른 두 학교의 학생 20명의 시험 점수를 보여주는 다음 두 표본에 대해 독립적인 2-표본 t-검정을 수행한다고 가정합니다.

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

점수 분포를 표시하기 위해 각 표본에 대한 상자 그림을 생성하면 두 표본이 매우 유사하다는 것을 알 수 있습니다.

표본 1의 평균은 90.65 이고 표본 2의 평균은 90.75 입니다. 표본 1의 표준편차는 2.77 이고 표본 2의 표준편차는 2.78 입니다. 독립 2-표본 t-검정을 수행하면 검정 통계량이 -0.113 이고 해당 p-값이 0.91 인 것으로 나타났습니다. 평균 시험 점수 간의 차이는 통계적으로 유의하지 않습니다.

그러나 두 표본의 표본 크기가 모두 200 인 경우를 생각해 보세요. 이 경우 독립적인 2-표본 t-검정을 통해 검정 통계량이 -1.97 이고 해당 p-값이 0.05 바로 아래임을 알 수 있습니다. 평균 시험 점수 간의 차이는 통계적으로 유의미합니다.

큰 표본 크기가 통계적으로 유의미한 결론으로 이어질 수 있는 근본적인 이유는 다시 한번 독립 2표본 t-검정에 대한 t- 검정 통계로 거슬러 올라갑니다.

검정 통계량 t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

n 1 과 n 2 가 작을 때 t 검정 통계량의 정수 분모도 작습니다. 그리고 작은 숫자로 나누면 큰 숫자가 나옵니다. 이는 t- 검정 통계량이 크고 해당 p-값이 작으므로 통계적으로 유의미한 결과가 나온다는 것을 의미합니다.

실무적 중요성을 평가하기 위해 해당 분야 전문 지식을 활용

가설 검정의 통계적으로 유의미한 결과가 실제로 의미가 있는지 여부를 확인하려면 해당 분야에 대한 전문 지식이 필요한 경우가 많습니다.

이전 예에서 두 학교의 시험 점수 차이를 테스트할 때 학교에서 일하거나 이러한 유형의 테스트를 관리하는 사람의 전문 지식을 활용하면 평균 차이가 1인지 확인하는 데 도움이 됩니다. 포인트가 존재하는지 존재하지 않는지. 실용적인 의미가 있습니다.

예를 들어, 1점의 평균 차이는 알파=0.05 수준에서 통계적으로 유의할 수 있지만, 이는 가장 낮은 점수를 받은 학교가 가장 높은 점수를 받은 학교가 더 높게 사용하는 프로그램을 채택해야 한다는 의미일까요? 아니면 관리 비용이 너무 많이 들고 구현이 너무 빠르거나 비용이 많이 들까요?

단지 두 학교 사이의 시험 점수에 통계적으로 유의한 차이가 있다고 해서 그 차이의 효과 크기가 교육 시스템에 어떤 형태의 변화를 일으킬 만큼 크다는 것을 의미하지는 않습니다.

신뢰 구간을 사용하여 실질적인 중요성 평가

실질적인 중요성을 결정하는 또 다른 유용한 도구는 신뢰 구간 입니다. 신뢰 구간은 실제 모집단 매개변수가 속할 가능성이 있는 값의 범위를 제공합니다.

예를 들어, 두 학교의 시험 점수 차이를 비교하는 예로 돌아가 보겠습니다. 교장은 학교가 새로운 프로그램을 채택하려면 최소 5점의 평균 점수 차이가 필요하다고 선언할 수 있습니다.

한 연구에서 시험 점수 간의 평균 차이가 8점임을 알 수 있습니다. 그러나 이 평균에 대한 신뢰 구간은 [4, 12]일 수 있으며, 이는 4가 평균 테스트 결과 간의 실제 차이일 수 있음을 나타냅니다. 이 경우 신뢰 구간이 실제 차이가 5보다 작을 수 있음을 나타내므로 교장은 학교가 프로그램을 변경하지 않을 것이라고 결론을 내릴 수 있습니다.

그러나 또 다른 연구에서는 테스트 결과 간의 평균 차이가 다시 8점이지만 평균을 중심으로 한 신뢰 구간은 [6, 10]이 될 수 있음을 알 수 있습니다. 이 간격에는 5가 포함되지 않으므로 감독은 테스트 점수 간의 실제 차이가 5보다 크다고 결론을 내리고 프로그램을 수정하는 것이 합리적이라고 결정할 것입니다.

결론

결론적으로 우리가 배운 내용은 다음과 같습니다.

  • 통계적 유의성은 특정 유의성 수준에 기초한 효과가 있는지 여부를 나타냅니다.
  • 실질적인 중요성 은 이 효과가 현실 세계에서 실질적인 영향을 미치는지 여부입니다.
  • 우리는 통계적 중요성을 결정하기 위해 통계 분석을 사용하고 실질적인 중요성을 평가하기 위해 영역 전문 지식을 사용합니다.
  • 작은 효과 크기는 (1) 표본 데이터의 변동성이 매우 작을 때와 (2) 표본 크기가 매우 클 때 작은 p-값을 생성할 수 있습니다.
  • 가설 검정을 수행하기 전에 최소 효과 크기를 설정하면 가설 검정 결과가 (통계적으로 유의하더라도) 실제로 현실에서 실용적인지 더 잘 평가할 수 있습니다.
  • 신뢰 구간은 실제 유의성을 결정하는 데 유용할 수 있습니다. 최소 효과 크기가 신뢰 구간 내에 있지 않으면 결과가 실질적으로 유의미할 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다