P값과 통계적 유의성에 대한 설명
통계에서 p-값은 t-검정, 카이제곱 검정, 회귀 분석, ANOVA 및 기타 다양한 통계 방법에 대한 가설 검정에 일반적으로 사용됩니다.
매우 일반적임에도 불구하고 사람들은 종종 p-값을 잘못 해석하여 분석이나 연구 결과를 해석할 때 오류가 발생할 수 있습니다.
이 글에서는 p-값을 명확하고 실용적인 방법으로 이해하고 해석하는 방법을 설명합니다.
가설 검증
p-값을 이해하려면 먼저 가설 검정 의 개념을 이해해야 합니다.
테스트 가설은 가설을 기각하거나 기각하지 못하는 데 사용하는 공식적인 통계 테스트입니다. 예를 들어, 새로운 약물, 방법 또는 절차가 현재 약물, 방법 또는 절차에 비해 특정 장점이 있다는 가설을 세울 수 있습니다.
이를 테스트하기 위해 귀무 가설과 대립 가설을 사용하는 가설 테스트를 수행할 수 있습니다.
귀무 가설 – 새로운 방법과 이전 방법 사이에는 효과나 차이가 없습니다.
대립가설 – 새로운 방법과 기존 방법 사이에는 효과나 차이가 있습니다.
p-값은 주어진 표본 데이터에서 귀무 가설이 얼마나 신뢰할 수 있는지를 나타냅니다. 구체적으로, 귀무가설이 참이라고 가정할 때 p-값은 최소한 표본 데이터에서 실제로 관찰한 효과만큼 큰 효과를 얻을 확률을 알려줍니다.
가설 검정의 p-값이 충분히 낮으면 귀무 가설을 기각할 수 있습니다. 구체적으로, 가설검정을 수행할 때 처음부터 유의수준을 선택해야 합니다. 유의 수준에 대한 일반적인 선택은 0.01, 0.05 및 0.10입니다.
p-값이 유의 수준 보다 낮으면 귀무 가설을 기각할 수 있습니다.
그렇지 않고 p-값이 유의 수준 보다 크거나 같으면 귀무 가설을 기각할 수 없습니다.
P 값을 해석하는 방법
p-값의 고전적인 정의는 다음과 같습니다.
p-값은 귀무가설이 참일 때 최소한 표본 통계량만큼 극단적인 표본 통계량을 관찰할 확률입니다.
예를 들어, 한 공장에서 평균 무게가 200파운드인 타이어를 생산한다고 가정해 보겠습니다. 한 감사자는 이 공장에서 생산되는 타이어의 실제 평균 중량이 200파운드 정도 다르다는 가설을 세웠습니다. 그래서 그는 가설 검정을 수행하고 검정의 p-값이 0.04라는 것을 발견했습니다. 이 p-값을 해석하는 방법은 다음과 같습니다.
공장에서 실제로 평균 중량이 200파운드인 타이어를 생산하는 경우 무작위 샘플링 오류로 인해 모든 감사의 4%가 샘플에서 관찰된 효과 이상을 달성하게 됩니다. 이는 공장이 실제로 평균 중량이 200파운드인 타이어를 생산한다면 감사관이 얻은 샘플 데이터를 얻는 것이 매우 드물다는 것을 말해줍니다.
이 가설 검정에 사용된 유의 수준에 따라 감사자는 이 공장에서 생산된 타이어의 실제 평균 중량이 실제로 200파운드라는 귀무 가설을 기각할 가능성이 높습니다. 그가 감사 중에 얻은 데이터 샘플은 귀무가설과 그다지 일치하지 않습니다.
P 값을 해석 하지 않는 방법
p-값에 대한 가장 큰 오해는 p-값이 실제 귀무 가설을 기각하여 오류를 범할 확률과 동일하다는 것입니다(제1종 오류라고 함).
p-값이 오류율과 일치할 수 없는 두 가지 주요 이유는 다음과 같습니다.
1. 귀무가설이 참이고, 표본 데이터와 귀무가설의 차이는 단순히 우연에 의한 것이라는 가정을 바탕으로 P값을 계산합니다. 따라서 p-값은 계산 관점에서 100% 참이기 때문에 0 값이 참인지 거짓일 확률을 알려줄 수 없습니다.
2. p-값이 낮다는 것은 표본 데이터가 0이 참이라고 가정할 가능성이 낮다는 것을 의미하지만, p-값은 다음 중 어느 경우가 더 가능성이 높은지 여전히 알 수 없습니다.
- null은 거짓입니다.
- 0 값은 참이지만 이상한 샘플이 있습니다.
이전 예와 비교하여 p-값을 해석하는 올바른 방법과 잘못된 방법은 다음과 같습니다.
- 올바른 해석: 공장에서 평균 중량이 200파운드인 타이어를 생산한다고 가정하면 샘플에서 관찰된 차이를 얻게 되거나 무작위 샘플링으로 인해 감사의 4%에서 더 극단적인 차이를 얻게 됩니다.
- 잘못된 해석: 귀무가설을 기각하면 실수할 확률이 4%입니다.
P 값 해석의 예
다음 예는 가설 검정의 맥락에서 p-값을 해석하는 올바른 방법을 보여줍니다.
실시예 1
한 전화 회사는 고객의 90%가 서비스에 만족한다고 주장합니다. 이 주장을 테스트하기 위해 독립적인 연구원은 200명의 고객으로 구성된 단순 무작위 표본을 수집하고 서비스에 만족하는지 물었고 85%가 그렇다고 답했습니다. 이 데이터 샘플과 관련된 p-값은 0.018인 것으로 나타났습니다.
p-값의 올바른 해석: 고객의 90%가 실제로 서비스에 만족한다고 가정하면 연구원은 표본에서 얻은 관찰된 차이 또는 무작위 표본 추출로 인해 감사의 1.8%에서 더 극단적인 차이를 얻게 됩니다. 오류. .
실시예 2
한 회사가 휴대폰용 새 배터리를 발명했습니다. 회사는 이 새 배터리가 기존 배터리보다 최소 10분 이상 더 오래 작동할 것이라고 주장합니다. 이 주장을 테스트하기 위해 연구원은 새 배터리 80개와 오래된 배터리 80개로 구성된 단순 무작위 표본을 추출합니다. 새 배터리는 표준 편차 12분으로 평균 120분 동안 지속되며 기존 배터리는 표준 편차 15분으로 평균 115분 동안 작동합니다. 모집단 평균 차이 검정의 결과인 p-값은 0.011입니다.
p-값의 올바른 해석: 새 배터리가 기존 배터리와 동일한 지속 시간 또는 그 이하로 작동한다고 가정하면 연구자는 오류 무작위 샘플링으로 인해 1.1%의 연구에서 관찰된 차이 또는 더 극단적인 차이를 얻게 됩니다.