"좋은" 것으로 간주되는 것은 무엇입니까? f1 점수?


기계 학습에서 분류 모델을 사용할 때 모델 품질을 평가하는 데 사용하는 일반적인 측정항목은 F1 점수 입니다.

이 측정항목은 다음과 같이 계산됩니다.

F1 점수 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

금:

  • 정확도 : 전체 긍정적 예측에 비해 긍정적 예측을 수정합니다.
  • 알림 : 전체 실제 긍정에 대한 긍정적 예측 수정

예를 들어, 400명의 대학 농구 선수가 NBA에 선발될지 여부를 예측하기 위해 로지스틱 회귀 모델을 사용한다고 가정해 보겠습니다.

다음 혼동 행렬은 모델의 예측을 요약합니다.

모델의 F1 점수를 계산하는 방법은 다음과 같습니다.

정확도 = 참양성 / (참양성 + 거짓양성) = 120/ (120+70) = 0.63157

재현율 = 참양성 / (참양성 + 거짓음성) = 120 / (120+40) = 0.75

F1 점수 = 2 * (.63157 * .75) / (.63157 + .75) = . 6857

좋은 F1 점수란 무엇입니까?

학생들이 자주 묻는 질문은 다음과 같습니다.

F1에서 좋은 점수는 무엇입니까?

간단히 말해서 F1 점수가 높을수록 일반적으로 더 좋습니다.

F1 점수의 범위는 0에서 1까지이며, 1은 각 관측치를 올바른 클래스로 완벽하게 분류하는 모델을 나타내고 0은 관측치를 올바른 클래스로 분류할 수 없는 모델을 나타냅니다.

이를 설명하기 위해 다음과 같은 혼동 행렬을 생성하는 로지스틱 회귀 모델이 있다고 가정합니다.

모델의 F1 점수를 계산하는 방법은 다음과 같습니다.

정확도 = 참양성 / (참양성 + 거짓양성) = 240/ (240+0) = 1

재현율 = 참양성 / (참양성 + 거짓음성) = 240 / (240+0) = 1

F1 점수 = 2 * (1 * 1) / (1 + 1) = 1

F1 점수는 400개의 관측값 각각을 하나의 클래스로 완벽하게 분류할 수 있기 때문에 1과 같습니다.

이제 각 선수가 드래프트될 것이라고 간단히 예측하는 또 다른 로지스틱 회귀 모델을 고려해 보겠습니다.

모델의 F1 점수를 계산하는 방법은 다음과 같습니다.

정확도 = 참양성 / (참양성 + 거짓양성) = 160/ (160+240) = 0.4

재현율 = 참양성 / (참양성 + 거짓음성) = 160 / (160+0) = 1

F1 점수 = 2 * (.4 * 1) / (.4 + 1) = 0.5714

이는 데이터 세트의 모든 관찰에 대해 동일한 예측을 수행하는 모델을 나타내기 때문에 로지스틱 회귀 모델을 비교할 수 있는 기본 모델 로 간주됩니다.

참조 모델과 비교하여 F1 점수가 높을수록 모델이 더 유용합니다.

앞서 우리 모델의 F1 점수가 0.6857 이라는 점을 상기해 보세요. 이는 0.5714 보다 그리 높지 않으며 이는 우리 모델이 기준 모델보다 더 유용하다는 것을 의미하지만 그다지 높지는 않습니다.

F1 점수 비교에 대해

실제로 분류 문제에 대한 “최적의” 모델을 선택하기 위해 일반적으로 다음 프로세스를 사용합니다.

1단계: 각 관측값에 대해 동일한 예측을 수행하는 참조 모델을 적합합니다.

2단계: 여러 가지 분류 모델을 피팅하고 각 모델의 F1 점수를 계산합니다.

3단계: F1 점수가 가장 높은 모델을 “최고” 모델로 선택하여 해당 모델이 참조 모델보다 더 높은 F1 점수를 생성하는지 확인합니다.

“좋은” F1 점수로 간주되는 특정 값은 없으므로 일반적으로 가장 높은 F1 점수를 생성하는 분류 모델을 선택합니다.

추가 리소스

F1 점수와 정확도: 어느 것을 사용해야 합니까?
R에서 F1 점수를 계산하는 방법
Python에서 F1 점수를 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다