두 개의 roc 곡선을 비교하는 방법(예제 포함)


기계 학습에서 분류 모델 의 성능을 시각화하는 한 가지 방법은 “수신기 작동 특성” 곡선을 나타내는 ROC 곡선을 만드는 것입니다.

이 유형의 곡선은 분류 모델의 민감도특이성을 표시합니다.

  • 민감도: 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률입니다.
  • 특이성: 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률입니다.

ROC 곡선의 x축은 (1-특이도) 를 나타내고 y축은 민감도를 나타냅니다.

ROC 곡선이 플롯의 왼쪽 상단 모서리에 가까울수록 모델이 데이터를 범주로 더 잘 분류할 수 있습니다.

이를 정량화하기 위해 곡선 아래에 있는 플롯의 양을 알려주는 AUC (곡선 아래 영역)를 계산할 수 있습니다.

AUC가 1에 가까울수록 모델이 더 좋습니다.

어떤 분류 모델이 더 나은지 결정하기 위해 두 개의 ROC 곡선을 비교할 때 어떤 ROC 곡선이 플롯의 왼쪽 상단 모서리에 더 가깝게 “밀착”되어 AUC 값이 더 높은지 확인하는 경우가 많습니다.

예: 두 ROC 곡선을 비교하는 방법

응답 변수의 결과를 예측하기 위해 로지스틱 회귀 모델과 경사 강화 모델을 데이터 세트에 적합하다고 가정합니다.

그런 다음 각 모델의 성능을 시각화하기 위해 ROC 곡선을 생성한다고 가정합니다.

두 ROC 곡선 비교

파란색 선은 로지스틱 회귀 모델의 ROC 곡선을 나타내고 주황색 선은 그래디언트 부스팅 모델의 ROC 곡선을 나타냅니다.

차트에서 각 모델에 대해 다음과 같은 AUC 값을 볼 수 있습니다.

  • 로지스틱 회귀 모델의 AUC: 0.7902
  • 경사 강화 모델의 AUC: 0.9712

그래디언트 개선 모델은 AUC 값이 더 높으므로 반응 변수의 결과를 더 잘 예측한다고 말할 수 있습니다.

참고 : 이 예에서는 두 개의 ROC 곡선만 비교했지만 여러 가지 분류 모델을 데이터 세트에 맞추고 더 많은 ROC 곡선을 비교하여 사용할 최상의 모델을 결정할 수 있습니다.

추가 리소스

다음 자습서에서는 분류 모델 및 ROC 곡선에 대한 추가 정보를 제공합니다.

로지스틱 회귀 소개
ROC 곡선을 해석하는 방법
좋은 AUC 점수는 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다