머신러닝의 분류 오류율: 정의 및 예

에 의해 벤자민 앤더슨 7월 19, 2023 가이드 댓글 0개

기계 학습에서 오분류율은 분류 모델 에 의해 잘못 예측된 관측치의 비율을 알려주는 측정항목입니다.

다음과 같이 계산됩니다.

오분류율 = # 잘못된 예측 / # 총 예측

오분류율의 값은 0에서 1까지 다양할 수 있습니다.

오분류율 값이 낮을수록 분류 모델이 응답 변수 의 결과를 더 잘 예측할 수 있습니다.

다음 예에서는 실제로 로지스틱 회귀 모델 의 분류 오류율을 계산하는 방법을 보여줍니다.

400명의 대학 농구 선수가 NBA에 선발될지 여부를 예측하기 위해 로지스틱 회귀 모델을 사용한다고 가정해 보겠습니다.

다음 혼동 행렬은 모델의 예측을 요약합니다.

로지스틱 회귀 모델의 오분류율 계산

모델의 분류 오류율을 계산하는 방법은 다음과 같습니다.

이 모델의 분류 오류율은 0.275 또는 27.5% 입니다.

이는 모델이 27.5% 의 플레이어에 대한 결과를 잘못 예측했음을 의미합니다.

분류 오류율의 반대는 정확도이며 다음과 같이 계산됩니다.

이는 모델이 72.5% 의 플레이어에 대한 결과를 올바르게 예측했음을 의미합니다.

오분류율은 다음과 같은 이점을 제공합니다.

그러나 분류 오류율에는 다음과 같은 단점이 있습니다.

이는 데이터가 배포되는 방식을 고려하지 않습니다 . 예를 들어 전체 선수의 90%가 NBA에 드래프트되지 않았다고 가정해 보겠습니다. 모든 플레이어가 드래프트되지 않을 것이라고 단순히 예측하는 모델이 있다면 모델의 분류 오류율은 10%에 불과합니다. 이는 낮은 것처럼 보이지만 실제로 모델은 드래프트될 선수를 정확하게 예측할 수 없습니다.

실제로는 다음과 같은 다른 측정항목을 사용하여 모델의 분류 오류율을 계산하는 경우가 많습니다.

이러한 각 지표의 값을 계산함으로써 모델이 얼마나 잘 예측할 수 있는지 완전히 이해할 수 있습니다.

다음 자습서에서는 일반적인 기계 학습 개념에 대한 추가 정보를 제공합니다.

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기