Roc 곡선을 해석하는 방법(예제 포함)


로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 통계 방법입니다. 로지스틱 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하기 위해 다음 두 가지 측정항목을 살펴볼 수 있습니다.

  • 민감도: 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률입니다.
  • 특이성: 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률입니다.

이 두 측정항목을 시각화하는 간단한 방법은 로지스틱 회귀 모델의 민감도와 특이성을 표시하는 그래프인 ROC 곡선을 만드는 것입니다.

이 튜토리얼에서는 ROC 곡선을 생성하고 해석하는 방법을 설명합니다.

ROC 곡선을 만드는 방법

로지스틱 회귀 모델을 적용한 후에는 모델을 사용하여 관측치를 두 범주 중 하나로 분류할 수 있습니다.

예를 들어, 관찰 내용을 “긍정적” 또는 “부정적”으로 분류할 수 있습니다.

참양성률은 실제로는 양성이어야 하는 관측치의 비율을 나타냅니다.

반대로 거짓양성률은 양성이어야 하지만 실제로는 음성인 관측치의 비율을 나타냅니다.

ROC 곡선을 만들 때 로지스틱 회귀 모델의 가능한 각 결정 임계값에 대해 참양성률과 거짓양성률의 쌍을 표시합니다.

ROC 곡선을 해석하는 방법

ROC 곡선이 플롯의 왼쪽 상단 모서리에 가까울수록 모델이 데이터를 범주로 더 잘 분류할 수 있습니다.

이를 정량화하기 위해 곡선 아래에 있는 플롯의 양을 알려주는 AUC (곡선 아래 영역)를 계산할 수 있습니다.

AUC가 1에 가까울수록 모델이 더 좋습니다.

AUC가 0.5인 모델은 완벽한 대각선이 되며 무작위 분류를 수행하는 모델보다 나을 것이 없는 모델을 나타냅니다.

다중 로지스틱 회귀 모델에 대한 AUC를 계산하는 것은 어떤 모델이 예측에 가장 적합한지 확인할 수 있기 때문에 특히 유용합니다.

예를 들어 세 가지 다른 로지스틱 회귀 모델을 적합하고 각 모델에 대해 다음 ROC 곡선을 그린다고 가정합니다.

각 모델의 AUC를 다음과 같이 계산한다고 가정합니다.

  • 모델 A: AUC = 0.923
  • 모델 B: AUC = 0.794
  • 모델 C: AUC = 0.588

모델 A는 AUC가 가장 높으며, 이는 곡선 아래 면적이 가장 높고 관측치를 범주로 올바르게 분류하는 데 가장 적합한 모델임을 나타냅니다.

추가 리소스

다음 튜토리얼에서는 다양한 통계 소프트웨어를 사용하여 ROC 곡선을 만드는 방법을 설명합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다