Roc 곡선을 해석하는 방법(예제 포함)
로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 통계 방법입니다. 로지스틱 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하기 위해 다음 두 가지 측정항목을 살펴볼 수 있습니다.
- 민감도: 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률입니다.
- 특이성: 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률입니다.
이 두 측정항목을 시각화하는 간단한 방법은 로지스틱 회귀 모델의 민감도와 특이성을 표시하는 그래프인 ROC 곡선을 만드는 것입니다.
이 튜토리얼에서는 ROC 곡선을 생성하고 해석하는 방법을 설명합니다.
ROC 곡선을 만드는 방법
로지스틱 회귀 모델을 적용한 후에는 모델을 사용하여 관측치를 두 범주 중 하나로 분류할 수 있습니다.
예를 들어, 관찰 내용을 “긍정적” 또는 “부정적”으로 분류할 수 있습니다.
참양성률은 실제로는 양성이어야 하는 관측치의 비율을 나타냅니다.
반대로 거짓양성률은 양성이어야 하지만 실제로는 음성인 관측치의 비율을 나타냅니다.
ROC 곡선을 만들 때 로지스틱 회귀 모델의 가능한 각 결정 임계값에 대해 참양성률과 거짓양성률의 쌍을 표시합니다.
ROC 곡선을 해석하는 방법
ROC 곡선이 플롯의 왼쪽 상단 모서리에 가까울수록 모델이 데이터를 범주로 더 잘 분류할 수 있습니다.
이를 정량화하기 위해 곡선 아래에 있는 플롯의 양을 알려주는 AUC (곡선 아래 영역)를 계산할 수 있습니다.
AUC가 1에 가까울수록 모델이 더 좋습니다.
AUC가 0.5인 모델은 완벽한 대각선이 되며 무작위 분류를 수행하는 모델보다 나을 것이 없는 모델을 나타냅니다.
다중 로지스틱 회귀 모델에 대한 AUC를 계산하는 것은 어떤 모델이 예측에 가장 적합한지 확인할 수 있기 때문에 특히 유용합니다.
예를 들어 세 가지 다른 로지스틱 회귀 모델을 적합하고 각 모델에 대해 다음 ROC 곡선을 그린다고 가정합니다.
각 모델의 AUC를 다음과 같이 계산한다고 가정합니다.
- 모델 A: AUC = 0.923
- 모델 B: AUC = 0.794
- 모델 C: AUC = 0.588
모델 A는 AUC가 가장 높으며, 이는 곡선 아래 면적이 가장 높고 관측치를 범주로 올바르게 분류하는 데 가장 적합한 모델임을 나타냅니다.
추가 리소스
다음 튜토리얼에서는 다양한 통계 소프트웨어를 사용하여 ROC 곡선을 만드는 방법을 설명합니다.