Poziom błędów klasyfikacji w uczeniu maszynowym: definicja i przykład
W uczeniu maszynowym współczynnik błędnych klasyfikacji to metryka, która informuje nas o odsetku obserwacji, które zostały błędnie przewidziane przez model klasyfikacyjny .
Oblicza się go w następujący sposób:
Wskaźnik błędnych klasyfikacji = # niepoprawnych przewidywań / # wszystkich przewidywań
Wartość współczynnika błędnych klasyfikacji może wahać się od 0 do 1, gdzie:
- 0 reprezentuje model, który nie miał błędnych przewidywań.
- 1 przedstawia model, którego przewidywania były całkowicie błędne.
Im niższa wartość współczynnika błędnych klasyfikacji, tym lepiej model klasyfikacji jest w stanie przewidzieć wynikizmiennej odpowiedzi .
Poniższy przykład pokazuje, jak w praktyce obliczyć współczynnik błędu klasyfikacji dla modelu regresji logistycznej .
Przykład: Obliczanie współczynnika błędu klasyfikacji dla modelu regresji logistycznej
Załóżmy, że używamy modelu regresji logistycznej do przewidzenia, czy 400 różnych koszykarzy z college’u zostanie powołanych do NBA.
Poniższa macierz zamieszania podsumowuje przewidywania dokonane przez model:

Oto jak obliczyć współczynnik błędu klasyfikacji dla modelu:
- Wskaźnik błędnych klasyfikacji = # niepoprawnych przewidywań / # wszystkich przewidywań
- Poziom błędu klasyfikacji = (fałszywie dodatnie + fałszywie ujemne) / (całkowite przewidywania)
- Wskaźnik błędnej klasyfikacji = (70 + 40) / (400)
- Wskaźnik błędnych klasyfikacji = 0,275
Poziom błędu klasyfikacji dla tego modelu wynosi 0,275 lub 27,5% .
Oznacza to, że model błędnie przewidział wynik dla 27,5% graczy.
Przeciwieństwem poziomu błędu klasyfikacji byłaby dokładność, którą oblicza się w następujący sposób:
- Dokładność = 1 – Poziom błędu klasyfikacji
- Dokładność = 1 – 0,275
- Dokładność = 0,725
Oznacza to, że model poprawnie przewidział wynik dla 72,5% graczy.
Zalety i wady współczynnika błędnej klasyfikacji
Wskaźnik błędnej klasyfikacji zapewnia następujące korzyści :
- Łatwo to zinterpretować . Poziom błędu klasyfikacji wynoszący 10% oznacza, że model dokonał błędnej prognozy dla 10% wszystkich obserwacji.
- Łatwo to obliczyć . Wskaźnik błędnej klasyfikacji oblicza się jako całkowitą liczbę błędnych przewidywań podzieloną przez całkowitą liczbę przewidywań.
Jednakże wskaźnik błędu klasyfikacji ma następujące wady :
- Nie uwzględnia to sposobu dystrybucji danych . Załóżmy na przykład, że 90% wszystkich graczy nie jest powołanych do NBA. Gdybyśmy mieli model, który po prostu przewidywałby, że każdy gracz nie zostanie wybrany do draftu, poziom błędu klasyfikacji w tym modelu wynosiłby zaledwie 10%. Wydaje się to niskie, ale w rzeczywistości model nie jest w stanie poprawnie przewidzieć gracza, który zostanie wybrany w drafcie.
W praktyce często obliczamy współczynnik błędu klasyfikacji modelu na podstawie innych wskaźników, takich jak:
- Czułość : „prawdziwie dodatni współczynnik” – procent pozytywnych wyników, które model jest w stanie wykryć.
- Specyfika : „prawdziwie ujemny współczynnik” – procent wyników negatywnych, jaki model jest w stanie wykryć.
- Wynik F1 : Metryka , która mówi nam, jak dokładny jest model w porównaniu do sposobu dystrybucji danych.
Obliczając wartość każdej z tych metryk, możemy w pełni zrozumieć, jak dobrze model jest w stanie dokonywać prognoz.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat typowych koncepcji uczenia maszynowego:
Wprowadzenie do regresji logistycznej
Co to jest zrównoważona dokładność?
Wynik F1 a dokładność: którego powinieneś użyć?