좋은 auc 점수는 무엇입니까?


로지스틱 회귀는 응답 변수가 이진일 때 회귀 모델을 맞추는 데 사용하는 방법입니다.

로지스틱 회귀 모델이 데이터 세트에 얼마나 잘 맞는지 평가하기 위해 다음 두 가지 측정항목을 살펴볼 수 있습니다.

  • 민감도: 결과가 실제로 긍정적일 때 모델이 관찰에 대한 긍정적인 결과를 예측할 확률입니다. 이를 ‘진양성률’이라고도 합니다.
  • 특이성: 결과가 실제로 부정적일 때 모델이 관찰에 대해 부정적인 결과를 예측할 확률입니다. 이를 ‘진음성률’이라고도 합니다.

이 두 가지 측정값을 시각화하는 한 가지 방법은 “수신기 작동 특성” 곡선을 나타내는 ROC 곡선을 만드는 것입니다.

y축을 따라 민감도를, x축을 따라 (1 – 특이도)를 표시하는 그래프입니다.

데이터 분류에서 로지스틱 회귀 모델의 효율성을 정량화하는 한 가지 방법은 “곡선 아래 영역”을 의미하는 AUC를 계산하는 것입니다.

AUC 값의 범위는 0에서 1까지입니다. AUC가 1인 모델은 관측치를 클래스로 완벽하게 분류할 수 있는 반면, AUC가 0.5인 모델은 무작위 추측을 하는 모델보다 나을 것이 없습니다.

좋은 AUC 점수란 무엇입니까?

학생들이 AUC에 대해 자주 묻는 질문은 다음과 같습니다.

좋은 AUC 점수란 무엇입니까?

대답:

좋은 AUC 점수로 간주되는 특정 기준은 없습니다 .

분명히 AUC 점수가 높을수록 모델이 관찰 내용을 클래스로 분류하는 능력이 더 커집니다.

그리고 우리는 AUC 점수가 0.5인 모델이 무작위 추측을 하는 모델보다 나을 것이 없다는 것을 알고 있습니다.

그러나 AUC 점수가 좋은지 나쁜지 판단할 수 있는 마법의 숫자는 없습니다.

특정 점수를 좋음 또는 나쁨으로 분류해야 하는 경우 응용 로지스틱 회귀 분석 (p. 177)에서 Hosmer 및 Lemeshow의 다음 경험 법칙을 참조할 수 있습니다 .

  • 0.5 = 차별 없음
  • 0.5-0.7 = 나쁜 차별
  • 0.7-0.8 = 허용되는 차별
  • 0.8-0.9 = 뛰어난 차별성
  • >0.9 = 예외적인 차별

이러한 표준에 따르면 AUC 점수가 0.7 미만인 모델은 불량한 것으로 간주되며 더 높은 모델은 허용 가능하거나 더 나은 것으로 간주됩니다.

“좋은” AUC 점수는 업계에 따라 다릅니다.

“좋은” AUC 점수로 간주되는 점수는 업계에 따라 다르다는 점을 명심하는 것이 중요합니다.

예를 들어, 의료 분야에서 연구자들은 실수로 인한 대가가 매우 높기 때문에 AUC 점수가 0.95 이상인 것을 찾는 경우가 많습니다.

예를 들어, 환자가 암에 걸릴지 여부를 예측하는 로지스틱 회귀 모델이 있는 경우 오류(환자에게 암이 없다고 거짓으로 말하고 환자에게 암이 있다고 말하는 것)를 저지르는 데 드는 비용이 너무 높아서 거의 매번 맞는 모델.

반대로 마케팅과 같은 다른 산업에서는 모델에 더 낮은 AUC 점수가 허용될 수 있습니다.

예를 들어 고객이 반복 고객이 될지 여부를 예측하는 모델이 있는 경우 잘못된 대가는 인생을 변화시키지 않으므로 AUC가 0.6만큼 낮은 모델은 여전히 유용할 수 있습니다.

AUC 점수를 현재 모델과 비교

실제 설정에서는 새로운 로지스틱 회귀 모델의 AUC 점수를 현재 사용 중인 모델의 AUC 점수와 비교하는 경우가 많습니다.

예를 들어, 회사가 로지스틱 회귀 모델을 사용하여 고객이 단골 고객이 될지 여부를 예측한다고 가정해 보겠습니다.

현재 모델의 AUC 점수가 0.6이고 AUC가 0.65인 새 모델을 개발하는 경우 개발한 새 모델은 약간의 개선만 제공하더라도 더 선호될 것이며 Hosmer와 Lemeshow는 “나쁨”으로 간주할 것입니다. 표준.

추가 리소스

다음 자습서에서는 ROC 곡선 및 AUC 점수를 만들고 해석하는 방법에 대한 추가 정보를 제공합니다.

ROC 곡선을 해석하는 방법(예제 포함)
Python에서 ROC 곡선을 만드는 방법
R에서 ROC 곡선을 만드는 방법
R에서 AUC를 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다