머신러닝의 분류 오류율: 정의 및 예


기계 학습에서 오분류율은 분류 모델 에 의해 잘못 예측된 관측치의 비율을 알려주는 측정항목입니다.

다음과 같이 계산됩니다.

오분류율 = # 잘못된 예측 / # 총 예측

오분류율의 값은 0에서 1까지 다양할 수 있습니다.

  • 0은 잘못된 예측이 없는 모델을 나타냅니다.
  • 1은 예측이 완전히 잘못된 모델을 나타냅니다.

오분류율 값이 낮을수록 분류 모델이 응답 변수 의 결과를 더 잘 예측할 수 있습니다.

다음 예에서는 실제로 로지스틱 회귀 모델 의 분류 오류율을 계산하는 방법을 보여줍니다.

예: 로지스틱 회귀 모델의 분류 오류율 계산

400명의 대학 농구 선수가 NBA에 선발될지 여부를 예측하기 위해 로지스틱 회귀 모델을 사용한다고 가정해 보겠습니다.

다음 혼동 행렬은 모델의 예측을 요약합니다.

로지스틱 회귀 모델의 오분류율 계산

모델의 분류 오류율을 계산하는 방법은 다음과 같습니다.

  • 오분류율 = # 잘못된 예측 / # 총 예측
  • 분류 오류율 = (거짓양성 + 위음성) / (총 예측)
  • 오분류율 = (70 + 40) / (400)
  • 오분류율 = 0.275

이 모델의 분류 오류율은 0.275 또는 27.5% 입니다.

이는 모델이 27.5% 의 플레이어에 대한 결과를 잘못 예측했음을 의미합니다.

분류 오류율의 반대는 정확도이며 다음과 같이 계산됩니다.

  • 정확도 = 1 – 분류 오류율
  • 정확도 = 1 – 0.275
  • 정확도 = 0.725

이는 모델이 72.5% 의 플레이어에 대한 결과를 올바르게 예측했음을 의미합니다.

오분류율의 장점과 단점

오분류율은 다음과 같은 이점을 제공합니다.

  • 해석하기 쉽습니다 . 분류 오류율이 10%라는 것은 모델이 전체 관측치 중 10%에 대해 잘못된 예측을 했다는 의미입니다.
  • 계산하기 쉽습니다 . 오분류율은 잘못된 예측의 총 수를 총 예측 수로 나누어 계산됩니다.

그러나 분류 오류율에는 다음과 같은 단점이 있습니다.

  • 이는 데이터가 배포되는 방식을 고려하지 않습니다 . 예를 들어 전체 선수의 90%가 NBA에 드래프트되지 않았다고 가정해 보겠습니다. 모든 플레이어가 드래프트되지 않을 것이라고 단순히 예측하는 모델이 있다면 모델의 분류 오류율은 10%에 불과합니다. 이는 낮은 것처럼 보이지만 실제로 모델은 드래프트될 선수를 정확하게 예측할 수 없습니다.

실제로는 다음과 같은 다른 측정항목을 사용하여 모델의 분류 오류율을 계산하는 경우가 많습니다.

  • 민감도 : “참 긍정률” – 모델이 감지할 수 있는 긍정적인 결과의 비율입니다.
  • 특이도 : “진음성 비율” – 모델이 감지할 수 있는 부정적인 결과의 비율입니다.
  • F1 점수 : 데이터가 배포되는 방식에 비해 모델이 얼마나 정확한지 알려주는 측정항목 입니다.

이러한 각 지표의 값을 계산함으로써 모델이 얼마나 잘 예측할 수 있는지 완전히 이해할 수 있습니다.

추가 리소스

다음 자습서에서는 일반적인 기계 학습 개념에 대한 추가 정보를 제공합니다.

로지스틱 회귀 소개
균형 잡힌 정확도란 무엇입니까?
F1 점수와 정확도: 어느 것을 사용해야 합니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다