F1-score vs. genauigkeit: was sollten sie verwenden?
Bei der Verwendung von Klassifizierungsmodellen beim maschinellen Lernen verwenden wir häufig zwei Metriken zur Bewertung der Modellqualität: F1-Score und Genauigkeit .
Für beide Metriken gilt: Je höher der Wert, desto besser ist ein Modell in der Lage, Beobachtungen in Klassen zu klassifizieren.
Allerdings wird jede Metrik nach einer anderen Formel berechnet und ihre Verwendung hat Vor- und Nachteile.
Das folgende Beispiel zeigt, wie jede Metrik in der Praxis berechnet wird.
Beispiel: Berechnung des F1-Scores und der Genauigkeit
Angenommen, wir verwenden ein logistisches Regressionsmodell, um vorherzusagen, ob 400 verschiedene College-Basketballspieler in die NBA eingezogen werden oder nicht.
Die folgende Verwirrungsmatrix fasst die vom Modell getroffenen Vorhersagen zusammen:
So berechnen Sie verschiedene Metriken für die Verwirrungsmatrix:
Genauigkeit: Korrekte positive Vorhersagen im Verhältnis zur Gesamtzahl der positiven Vorhersagen
- Genauigkeit = Richtig positiv / (Richtig positiv + Falsch positiv)
- Genauigkeit = 120 / (120 + 70)
- Genauigkeit = 0,63
Erinnerung: Korrigieren Sie positive Vorhersagen anhand der gesamten tatsächlichen positiven Ergebnisse
- Rückruf = Richtig positiv / (Richtig positiv + Falsch negativ)
- Rückruf = 120 / (120 + 40)
- Rückruf = 0,75
Genauigkeit: Prozentsatz aller korrekt klassifizierten Beobachtungen
- Genauigkeit = (Richtig positiv + Richtig negativ) / (Gesamtstichprobengröße)
- Genauigkeit = (120 + 170) / (400)
- Genauigkeit = 0,725
F1-Score: harmonischer Durchschnitt von Präzision und Erinnerung
- F1-Score = 2 * (Präzision * Rückruf) / (Präzision + Rückruf)
- F1-Score = 2 * (0,63 * 0,75) / (0,63 + 0,75)
- F1-Score = 0,685
Wann sollte der F1-Score im Vergleich zur Genauigkeit verwendet werden?
Die Verwendung von F1-Score und -Genauigkeit hat Vor- und Nachteile.
Genauigkeit :
Pro : Leicht zu interpretieren. Wenn wir sagen, dass ein Modell zu 90 % genau ist, wissen wir, dass es 90 % der Beobachtungen richtig klassifiziert hat.
Nachteil : Berücksichtigt nicht, wie die Daten verteilt werden. Nehmen wir zum Beispiel an, dass 90 % aller Spieler nicht in die NBA eingezogen werden. Wenn wir ein Modell hätten, das einfach vorhersagt, dass jeder Spieler nicht gedraftet wird, würde das Modell das Ergebnis für 90 % der Spieler korrekt vorhersagen. Dieser Wert erscheint hoch, aber das Modell ist tatsächlich nicht in der Lage, korrekt vorherzusagen, welche Spieler gedraftet werden.
F1-Ergebnisse :
Pro : Überlegen Sie, wie die Daten verteilt werden. Wenn die Daten beispielsweise stark unausgeglichen sind (z. B. 90 % aller Spieler sind ungedraftet und 10 % sind es), dann liefert der F1-Score eine bessere Beurteilung der Leistung des Modells.
Nachteil : Schwieriger zu interpretieren. Der F1-Score ist eine Mischung aus Präzision und Modellerinnerung, was die Interpretation etwas schwieriger macht.
Allgemein:
Wir verwenden häufig Genauigkeit , wenn die Klassen ausgeglichen sind und es keine großen Nachteile bei der Vorhersage falsch-negativer Ergebnisse gibt.
Wir verwenden häufig den F1-Score , wenn die Klassen unausgeglichen sind und ein schwerwiegender Nachteil bei der Vorhersage falsch negativer Ergebnisse besteht.
Wenn wir beispielsweise ein logistisches Regressionsmodell verwenden, um vorherzusagen, ob eine Person Krebs hat oder nicht, sind falsch-negative Ergebnisse wirklich schlecht (z. B. die Vorhersage, dass eine Person keinen Krebs hat, wenn sie tatsächlich Krebs hat), sodass der F1-Score Modelle bestraft, die Krebs haben zu viele falsche Negative. mehr als Präzision.
Zusätzliche Ressourcen
Regression vs. Klassifizierung: Was ist der Unterschied?
Einführung in die logistische Regression
So führen Sie eine logistische Regression in R durch
So führen Sie eine logistische Regression in Python durch