Classificatiefoutenpercentage bij machinaal leren: definitie en voorbeeld
Bij machinaal leren is het percentage misclassificaties een maatstaf die ons vertelt hoeveel procent van de waarnemingen onjuist is voorspeld door een classificatiemodel .
Het wordt als volgt berekend:
Misclassificatiepercentage = # onjuiste voorspellingen / # totale voorspellingen
De waarde van het misclassificatiepercentage kan variëren van 0 tot 1 waarbij:
- 0 vertegenwoordigt een model dat geen onjuiste voorspellingen had.
- 1 vertegenwoordigt een model waarvan de voorspellingen volledig onjuist waren.
Hoe lager de waarde van het misclassificatiepercentage, hoe beter een classificatiemodel de resultaten van deresponsvariabele kan voorspellen.
Het volgende voorbeeld laat zien hoe u in de praktijk het classificatiefoutenpercentage voor een logistisch regressiemodel kunt berekenen.
Voorbeeld: Berekening van het classificatiefoutenpercentage voor een logistisch regressiemodel
Stel dat we een logistisch regressiemodel gebruiken om te voorspellen of 400 verschillende universiteitsbasketbalspelers wel of niet zullen worden opgeroepen voor de NBA.
De volgende verwarringsmatrix vat de voorspellingen van het model samen:
U kunt als volgt het classificatiefoutenpercentage voor het model berekenen:
- Misclassificatiepercentage = # onjuiste voorspellingen / # totale voorspellingen
- Classificatiefoutenpercentage = (vals-positieven + vals-negatieven) / (totaal voorspellingen)
- Misclassificatiepercentage = (70 + 40) / (400)
- Misclassificatiepercentage = 0,275
Het classificatiefoutenpercentage voor dit model is 0,275 of 27,5% .
Dit betekent dat het model de uitkomst voor 27,5% van de spelers verkeerd voorspelde.
Het tegenovergestelde van het classificatiefoutenpercentage is de nauwkeurigheid, die als volgt wordt berekend:
- Nauwkeurigheid = 1 – Foutpercentage bij classificatie
- Nauwkeurigheid = 1 – 0,275
- Nauwkeurigheid = 0,725
Dit betekent dat het model de uitkomst voor 72,5% van de spelers correct voorspelde.
Voor- en nadelen van het percentage verkeerde classificaties
Het misclassificatiepercentage biedt de volgende voordelen :
- Het is gemakkelijk te interpreteren . Een classificatiefoutpercentage van 10% betekent dat een model voor 10% van de totale waarnemingen een onjuiste voorspelling heeft gedaan.
- Het is gemakkelijk te berekenen . Het percentage misclassificaties wordt berekend als het totale aantal onjuiste voorspellingen gedeeld door het totale aantal voorspellingen.
Het classificatiefoutenpercentage heeft echter de volgende nadelen :
- Hierbij wordt geen rekening gehouden met de manier waarop de gegevens worden gedistribueerd . Laten we bijvoorbeeld aannemen dat 90% van alle spelers niet is opgeroepen voor de NBA. Als we een model hadden dat eenvoudigweg voorspelde dat elke speler niet zou worden opgesteld, zou het model een classificatiefoutenpercentage van slechts 10% hebben. Dit lijkt laag, maar het model is feitelijk niet in staat om correct te voorspellen welke speler zal worden opgeroepen.
In de praktijk berekenen we het classificatiefoutenpercentage van een model vaak met andere statistieken, zoals:
- Gevoeligheid : het “echte positieve percentage” – het percentage positieve resultaten dat het model kan detecteren.
- Specificiteit : Het “echte negatieve percentage” – het percentage negatieve resultaten dat het model kan detecteren.
- F1-score : een statistiek die ons vertelt hoe nauwkeurig een model is, in verhouding tot hoe de gegevens worden gedistribueerd.
Door de waarde van elk van deze statistieken te berekenen, kunnen we volledig begrijpen hoe goed het model voorspellingen kan doen.
Aanvullende bronnen
De volgende zelfstudies bieden aanvullende informatie over algemene machine learning-concepten:
Inleiding tot logistieke regressie
Wat is gebalanceerde nauwkeurigheid?
F1-score versus nauwkeurigheid: welke moet u gebruiken?