효과 크기: 그것이 무엇이며 왜 중요한가


“통계적 유의성은 결과에서 가장 흥미롭지 않은 부분입니다. 규모 측정 측면에서 결과를 설명해야 합니다. 즉, 치료가 사람들에게 영향을 미칠 뿐만 아니라 치료가 사람들에게 미치는 영향의 정도도 설명해야 합니다. -진 V. 글래스


통계에서는 두 그룹 사이에 통계적으로 유의미한 차이가 있는지 확인하기 위해 p값을 사용하는 경우가 많습니다.

예를 들어, 두 가지 서로 다른 학습 방법이 서로 다른 시험 점수로 이어지는지 알고 싶다고 가정해 보겠습니다. 그래서 우리는 시험을 준비하기 위해 한 가지 학습 기법을 사용하는 20명의 학생 그룹과 다른 학습 기법을 사용하는 또 다른 20명의 학생 그룹이 있습니다. 그런 다음 각 학생에게 동일한 테스트를 실시합니다.

평균의 차이를 확인하기 위해 2-표본 t-검정을 실행한 후 검정에 대한 p-값이 0.001이라는 것을 알 수 있습니다. 유의수준 0.05를 사용하면 두 그룹의 평균 결과 간에 통계적으로 유의한 차이가 있음을 의미합니다. 따라서 공부 방법이 시험 결과에 영향을 미칩니다.

그러나 p-값은 학습 기술이 시험 점수에 영향을 미친다는 것을 알려주지만, 그 영향의 크기를 알려주지는 않습니다. 이를 이해하려면 효과크기를 알아야 합니다.

효과 크기란 무엇입니까?

효과 크기는 두 그룹 간의 차이를 정량화하는 방법입니다.

p-값은 두 그룹 사이에 통계적으로 유의미한 차이가 있는지 여부를 알려줄 수 있지만, 효과 크기는 그 차이가 실제로 얼마나 큰지 알려줄 수 있습니다. 실제로 효과 크기는 p-값보다 알아두면 훨씬 더 흥미롭고 유용합니다.

수행 중인 분석 유형에 따라 효과 크기를 측정하는 세 가지 방법이 있습니다.

1. 표준화된 평균차

두 그룹 간의 평균 차이를 연구하려는 경우 효과 크기를 계산하는 적절한 방법은 표준화된 평균 차이를 사용하는 것입니다. 가장 널리 사용되는 공식은 Cohen의 d 로 알려져 있으며 다음과 같이 계산됩니다.

코헨 D = ( x1x2 )/ s

여기서 x 1x 2 는 각각 그룹 1과 그룹 2의 표본 평균이고 s 는 두 그룹이 추출된 모집단의 표준 편차입니다.

이 공식을 사용하면 효과 크기를 쉽게 해석할 수 있습니다.

  • d 가 1이면 두 그룹의 평균이 1표준편차만큼 다르다는 것을 나타냅니다.
  • d 가 2라는 것은 그룹 평균이 2개의 표준편차만큼 다르다는 것을 의미합니다.
  • d 가 2.5라는 것은 두 평균이 2.5 표준편차만큼 다르다는 것을 의미합니다.

효과 크기를 해석하는 또 다른 방법은 다음과 같습니다. 효과 크기 0.3은 그룹 2 의 평균 개인 점수가 그룹 1 의 개인 평균보다 0.3 표준 편차 높으므로 그룹 1 의 평균 점수인 62%를 초과한다는 의미입니다. .

다음 표는 다양한 효과 크기와 해당 백분위수를 보여줍니다.

효과 크기 그룹 1 에 속한 사람들의 평균보다 낮은 그룹 2 의 비율
0.0 50%
0.2 58%
0.4 66%
0.6 73%
0.8 79%
1.0 84%
1.2 88%
1.4 92%
1.6 95%
1.8 96%
2.0 98%
2.5 99%
3.0 99.9%

효과 크기가 클수록 각 그룹의 평균 개인 간의 차이가 커집니다.

일반적으로 d 가 0.2 이하는 작은 효과크기, 0.5 정도는 중간 효과크기, 0.8 이상이면 큰 효과크기로 간주됩니다.

따라서 두 그룹의 평균이 0.2 표준편차 이상 다르지 않으면 p-값이 통계적으로 유의하더라도 차이는 중요하지 않습니다.

2. 상관계수

두 변수 간의 정량적 관계를 연구하려는 경우 효과 크기를 계산하는 가장 일반적인 방법은 Pearson 상관 계수를 사용하는 것입니다. 이는 두 변수 XY 사이의 선형 연관성을 측정한 것입니다. 값은 -1과 1 사이입니다.

  • -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
  • 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
  • 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.

Pearson 상관 계수를 계산하는 공식은 상당히 복잡하지만 관심 있는 사람들은 여기에서 찾을 수 있습니다.

상관 계수가 0에서 멀어질수록 두 변수 간의 선형 관계가 더 강해집니다. 이는 변수 XY 값의 간단한 산점도를 생성하여 확인할 수도 있습니다.

예를 들어, 다음 산점도는 상관 계수가 r = 0.94인 두 변수의 값을 보여줍니다.

이 값은 0과는 거리가 멀며, 이는 두 변수 사이에 강한 양의 관계가 있음을 나타냅니다.

반대로, 다음 산점도는 상관계수 r= 0.03을 갖는 두 변수의 값을 보여줍니다. 이 값은 0에 가깝습니다. 이는 두 변수 사이에 사실상 관계가 없음을 나타냅니다.

일반적으로 Pearson 상관계수 r 값이 약 0.1이면 효과 크기가 작은 것으로 간주되고, r이 약 0.3이면 중간, r이 0.5 이상이면 큰 것으로 간주됩니다.

3. 승산비

치료 그룹의 성공 확률과 대조 그룹의 성공 확률을 비교하려는 경우 효과 크기를 계산하는 가장 일반적인 방법은 승산비를 사용하는 것입니다.

예를 들어 다음과 같은 테이블이 있다고 가정해 보겠습니다.

효과 크기 #성공 # 체스
치료군 가지다
대조군 VS

승산비는 다음과 같이 계산됩니다.

승산비 = (AD) / (BC)

승산비가 1에서 멀수록 치료가 실제 효과를 낼 확률이 높아집니다.

P-값에 대한 효과 크기 사용의 이점

효과 크기는 p-값에 비해 몇 가지 장점이 있습니다.

1. 효과 크기는 두 그룹 간의 차이가 얼마나 큰지 또는 두 그룹 간의 연관성이 얼마나 강한 지를 더 잘 파악하는 데 도움이 됩니다. p-값은 유의미한 차이나 유의미한 연관성이 있는지 여부만 알려줄 수 있습니다.

2. p-값과 달리 효과 크기는 다양한 환경에서 수행된 다양한 연구 결과를 정량적으로 비교하는 데 사용할 수 있습니다. 이러한 이유로 효과 크기는 메타 분석에 자주 사용됩니다.

3. P값은 표본 크기가 크면 영향을 받을 수 있습니다. 표본 크기가 클수록 가설 검정의 통계적 검정력이 커지므로 작은 효과라도 감지할 수 있습니다. 이는 실제적인 의미가 없을 수 있는 작은 효과 크기에도 불구하고 낮은 p-값으로 이어질 수 있습니다.

간단한 예를 통해 이를 명확하게 설명할 수 있습니다. 두 가지 학습 기술이 서로 다른 시험 점수로 이어지는지 여부를 알고 싶다고 가정해 보겠습니다. 한 가지 학습 기법을 사용하는 20명의 학생 그룹과 다른 학습 기법을 사용하는 20명의 학생 그룹이 있습니다. 그런 다음 각 학생에게 동일한 테스트를 실시합니다.

그룹 1의 평균 점수는 90.65 이고 그룹 2의 평균 점수는 90.75 입니다. 표본 1의 표준편차는 2.77 이고 표본 2의 표준편차는 2.78 입니다.

독립 2-표본 t-검정을 수행하면 검정 통계량이 -0.113 이고 해당 p-값이 0.91 인 것으로 나타났습니다. 평균 시험 점수 간의 차이는 통계적으로 유의하지 않습니다.

그러나 두 표본의 표본 크기가 모두 200 인데 평균과 표준 편차가 정확히 동일하게 유지되는 경우를 생각해 보세요.

이 경우 독립적인 2-표본 t-검정을 통해 검정 통계량이 -1.97 이고 해당 p-값이 0.05 바로 아래임을 알 수 있습니다. 평균 시험 점수 간의 차이는 통계적으로 유의미합니다.

큰 표본 크기가 통계적으로 유의미한 결론으로 이어질 수 있는 근본적인 이유는 t- 검정 통계를 계산하는 데 사용되는 공식 때문입니다.

검정 통계량 t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

n 1 과 n 2 가 작을 때 t 검정 통계량의 정수 분모도 작습니다. 그리고 작은 숫자로 나누면 큰 숫자가 나옵니다. 이는 t- 검정 통계량이 크고 해당 p-값이 작으므로 통계적으로 유의미한 결과가 나온다는 것을 의미합니다.

좋은 효과 크기로 간주되는 것은 무엇입니까?

학생들이 자주 묻는 질문은 다음과 같습니다. 좋은 효과 크기는 무엇입니까?

짧은 대답: 효과 크기는 단순히 두 그룹 간의 차이 크기 또는 두 그룹 간의 연관성 강도를 측정하기 때문에 “좋음” 또는 “나쁨”이 될 수 없습니다.

그러나 다음과 같은 경험 법칙을 사용하여 효과의 크기가 작은지, 중간인지, 큰지 정량화할 수 있습니다.

코헨의 D:

  • 0.2 이하의 d는 작은 효과 크기로 간주됩니다.
  • 0.5의 d는 중간 효과 크기로 간주됩니다.
  • 0.8 이상의 d는 큰 효과 크기로 간주됩니다.

피어슨 상관 계수

  • 0.1 부근의 r 절대값은 작은 효과 크기로 간주됩니다.
  • 약 0.3의 r 절대값은 중간 효과 크기로 간주됩니다.
  • 0.5보다 큰 r 의 절대값은 큰 효과 크기로 간주됩니다.

그러나 “강한” 상관관계의 정의는 분야마다 다를 수 있습니다. 다양한 산업 분야에서 강한 상관관계가 있다고 간주되는 사항을 더 잘 이해하려면 이 기사를 참조하세요.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다