Klassifizierungsfehlerrate beim maschinellen lernen: definition und beispiel


Beim maschinellen Lernen ist die Fehlklassifizierungsrate eine Metrik, die uns den Prozentsatz der Beobachtungen angibt, die von einem Klassifizierungsmodell falsch vorhergesagt wurden.

Es wird wie folgt berechnet:

Fehlklassifizierungsrate = # falsche Vorhersagen / # Gesamtvorhersagen

Der Wert der Fehlklassifizierungsrate kann zwischen 0 und 1 variieren, wobei:

  • 0 stellt ein Modell dar, das keine falschen Vorhersagen hatte.
  • 1 stellt ein Modell dar, dessen Vorhersagen völlig falsch waren.

Je niedriger der Wert der Fehlklassifizierungsrate ist, desto besser kann ein Klassifizierungsmodell die Ergebnisse der Antwortvariablen vorhersagen.

Das folgende Beispiel zeigt, wie die Klassifizierungsfehlerrate für ein logistisches Regressionsmodell in der Praxis berechnet wird.

Beispiel: Berechnung der Klassifizierungsfehlerrate für ein logistisches Regressionsmodell

Angenommen, wir verwenden ein logistisches Regressionsmodell, um vorherzusagen, ob 400 verschiedene College-Basketballspieler in die NBA eingezogen werden oder nicht.

Die folgende Verwirrungsmatrix fasst die vom Modell getroffenen Vorhersagen zusammen:

Berechnen Sie die Fehlklassifizierungsrate des logistischen Regressionsmodells

So berechnen Sie die Klassifizierungsfehlerrate für das Modell:

  • Fehlklassifizierungsrate = # falsche Vorhersagen / # Gesamtvorhersagen
  • Klassifizierungsfehlerrate = (Falsch-Positive + Falsch-Negative) / (Gesamtvorhersagen)
  • Fehlklassifizierungsrate = (70 + 40) / (400)
  • Fehlklassifizierungsrate = 0,275

Die Klassifizierungsfehlerrate für dieses Modell beträgt 0,275 oder 27,5 % .

Das bedeutet, dass das Modell das Ergebnis für 27,5 % der Spieler falsch vorhergesagt hat.

Das Gegenteil der Klassifizierungsfehlerrate wäre die Genauigkeit, die wie folgt berechnet wird:

  • Genauigkeit = 1 – Klassifizierungsfehlerrate
  • Genauigkeit = 1 – 0,275
  • Genauigkeit = 0,725

Das bedeutet, dass das Modell das Ergebnis für 72,5 % der Spieler richtig vorhergesagt hat.

Vor- und Nachteile der Fehlklassifizierungsrate

Die Fehlklassifizierungsrate bietet folgende Vorteile :

  • Es ist leicht zu interpretieren . Eine Klassifizierungsfehlerrate von 10 % bedeutet, dass ein Modell für 10 % der Gesamtbeobachtungen eine falsche Vorhersage gemacht hat.
  • Es ist einfach zu berechnen . Eine Fehlklassifizierungsrate wird berechnet als die Gesamtzahl der falschen Vorhersagen dividiert durch die Gesamtzahl der Vorhersagen.

Die Klassifizierungsfehlerrate hat jedoch folgende Nachteile :

  • Dabei wird nicht berücksichtigt, wie die Daten verteilt sind . Nehmen wir zum Beispiel an, dass 90 % aller Spieler nicht in die NBA eingezogen werden. Wenn wir ein Modell hätten, das einfach vorhersagte, dass jeder Spieler nicht gedraftet würde, hätte das Modell eine Klassifizierungsfehlerquote von nur 10 %. Das scheint niedrig zu sein, aber das Modell ist tatsächlich nicht in der Lage, den Spieler, der gedraftet wird, korrekt vorherzusagen.

In der Praxis berechnen wir die Klassifizierungsfehlerrate eines Modells häufig mit anderen Metriken wie:

  • Sensitivität : Die „wahre positive Rate“ – der Prozentsatz positiver Ergebnisse, den das Modell erkennen kann.
  • Spezifität : Die „wahre Negativrate“ – der Prozentsatz negativer Ergebnisse, den das Modell erkennen kann.
  • F1-Score : Eine Metrik , die uns sagt, wie genau ein Modell im Verhältnis zur Datenverteilung ist.

Durch die Berechnung des Werts jeder dieser Metriken können wir vollständig verstehen, wie gut das Modell Vorhersagen treffen kann.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zu gängigen Konzepten des maschinellen Lernens:

Einführung in die logistische Regression
Was ist ausgewogene Genauigkeit?
F1-Score vs. Genauigkeit: Was sollten Sie verwenden?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert