"좋은" 것으로 간주되는 것은 무엇입니까? f1 점수?

에 의해 벤자민 앤더슨 7월 23, 2023 가이드 댓글 0개

기계 학습에서 분류 모델을 사용할 때 모델 품질을 평가하는 데 사용하는 일반적인 측정항목은 F1 점수 입니다.

이 측정항목은 다음과 같이 계산됩니다.

F1 점수 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)

금:

예를 들어, 400명의 대학 농구 선수가 NBA에 선발될지 여부를 예측하기 위해 로지스틱 회귀 모델을 사용한다고 가정해 보겠습니다.

다음 혼동 행렬은 모델의 예측을 요약합니다.

모델의 F1 점수를 계산하는 방법은 다음과 같습니다.

정확도 = 참양성 / (참양성 + 거짓양성) = 120/ (120+70) = 0.63157

재현율 = 참양성 / (참양성 + 거짓음성) = 120 / (120+40) = 0.75

F1 점수 = 2 * (.63157 * .75) / (.63157 + .75) = . 6857

학생들이 자주 묻는 질문은 다음과 같습니다.

F1에서 좋은 점수는 무엇입니까?

간단히 말해서 F1 점수가 높을수록 일반적으로 더 좋습니다.

F1 점수의 범위는 0에서 1까지이며, 1은 각 관측치를 올바른 클래스로 완벽하게 분류하는 모델을 나타내고 0은 관측치를 올바른 클래스로 분류할 수 없는 모델을 나타냅니다.

이를 설명하기 위해 다음과 같은 혼동 행렬을 생성하는 로지스틱 회귀 모델이 있다고 가정합니다.

모델의 F1 점수를 계산하는 방법은 다음과 같습니다.

정확도 = 참양성 / (참양성 + 거짓양성) = 240/ (240+0) = 1

재현율 = 참양성 / (참양성 + 거짓음성) = 240 / (240+0) = 1

F1 점수 = 2 * (1 * 1) / (1 + 1) = 1

F1 점수는 400개의 관측값 각각을 하나의 클래스로 완벽하게 분류할 수 있기 때문에 1과 같습니다.

이제 각 선수가 드래프트될 것이라고 간단히 예측하는 또 다른 로지스틱 회귀 모델을 고려해 보겠습니다.

모델의 F1 점수를 계산하는 방법은 다음과 같습니다.

정확도 = 참양성 / (참양성 + 거짓양성) = 160/ (160+240) = 0.4

재현율 = 참양성 / (참양성 + 거짓음성) = 160 / (160+0) = 1

F1 점수 = 2 * (.4 * 1) / (.4 + 1) = 0.5714

이는 데이터 세트의 모든 관찰에 대해 동일한 예측을 수행하는 모델을 나타내기 때문에 로지스틱 회귀 모델을 비교할 수 있는 기본 모델 로 간주됩니다.

참조 모델과 비교하여 F1 점수가 높을수록 모델이 더 유용합니다.

앞서 우리 모델의 F1 점수가 0.6857 이라는 점을 상기해 보세요. 이는 0.5714 보다 그리 높지 않으며 이는 우리 모델이 기준 모델보다 더 유용하다는 것을 의미하지만 그다지 높지는 않습니다.

실제로 분류 문제에 대한 “최적의” 모델을 선택하기 위해 일반적으로 다음 프로세스를 사용합니다.

1단계: 각 관측값에 대해 동일한 예측을 수행하는 참조 모델을 적합합니다.

2단계: 여러 가지 분류 모델을 피팅하고 각 모델의 F1 점수를 계산합니다.

3단계: F1 점수가 가장 높은 모델을 “최고” 모델로 선택하여 해당 모델이 참조 모델보다 더 높은 F1 점수를 생성하는지 확인합니다.

“좋은” F1 점수로 간주되는 특정 값은 없으므로 일반적으로 가장 높은 F1 점수를 생성하는 분류 모델을 선택합니다.

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기