Poziom błędów klasyfikacji w uczeniu maszynowym: definicja i przykład


W uczeniu maszynowym współczynnik błędnych klasyfikacji to metryka, która informuje nas o odsetku obserwacji, które zostały błędnie przewidziane przez model klasyfikacyjny .

Oblicza się go w następujący sposób:

Wskaźnik błędnych klasyfikacji = # niepoprawnych przewidywań / # wszystkich przewidywań

Wartość współczynnika błędnych klasyfikacji może wahać się od 0 do 1, gdzie:

  • 0 reprezentuje model, który nie miał błędnych przewidywań.
  • 1 przedstawia model, którego przewidywania były całkowicie błędne.

Im niższa wartość współczynnika błędnych klasyfikacji, tym lepiej model klasyfikacji jest w stanie przewidzieć wynikizmiennej odpowiedzi .

Poniższy przykład pokazuje, jak w praktyce obliczyć współczynnik błędu klasyfikacji dla modelu regresji logistycznej .

Przykład: Obliczanie współczynnika błędu klasyfikacji dla modelu regresji logistycznej

Załóżmy, że używamy modelu regresji logistycznej do przewidzenia, czy 400 różnych koszykarzy z college’u zostanie powołanych do NBA.

Poniższa macierz zamieszania podsumowuje przewidywania dokonane przez model:

obliczyć współczynnik błędnej klasyfikacji modelu regresji logistycznej

Oto jak obliczyć współczynnik błędu klasyfikacji dla modelu:

  • Wskaźnik błędnych klasyfikacji = # niepoprawnych przewidywań / # wszystkich przewidywań
  • Poziom błędu klasyfikacji = (fałszywie dodatnie + fałszywie ujemne) / (całkowite przewidywania)
  • Wskaźnik błędnej klasyfikacji = (70 + 40) / (400)
  • Wskaźnik błędnych klasyfikacji = 0,275

Poziom błędu klasyfikacji dla tego modelu wynosi 0,275 lub 27,5% .

Oznacza to, że model błędnie przewidział wynik dla 27,5% graczy.

Przeciwieństwem poziomu błędu klasyfikacji byłaby dokładność, którą oblicza się w następujący sposób:

  • Dokładność = 1 – Poziom błędu klasyfikacji
  • Dokładność = 1 – 0,275
  • Dokładność = 0,725

Oznacza to, że model poprawnie przewidział wynik dla 72,5% graczy.

Zalety i wady współczynnika błędnej klasyfikacji

Wskaźnik błędnej klasyfikacji zapewnia następujące korzyści :

  • Łatwo to zinterpretować . Poziom błędu klasyfikacji wynoszący 10% oznacza, że model dokonał błędnej prognozy dla 10% wszystkich obserwacji.
  • Łatwo to obliczyć . Wskaźnik błędnej klasyfikacji oblicza się jako całkowitą liczbę błędnych przewidywań podzieloną przez całkowitą liczbę przewidywań.

Jednakże wskaźnik błędu klasyfikacji ma następujące wady :

  • Nie uwzględnia to sposobu dystrybucji danych . Załóżmy na przykład, że 90% wszystkich graczy nie jest powołanych do NBA. Gdybyśmy mieli model, który po prostu przewidywałby, że każdy gracz nie zostanie wybrany do draftu, poziom błędu klasyfikacji w tym modelu wynosiłby zaledwie 10%. Wydaje się to niskie, ale w rzeczywistości model nie jest w stanie poprawnie przewidzieć gracza, który zostanie wybrany w drafcie.

W praktyce często obliczamy współczynnik błędu klasyfikacji modelu na podstawie innych wskaźników, takich jak:

  • Czułość : „prawdziwie dodatni współczynnik” – procent pozytywnych wyników, które model jest w stanie wykryć.
  • Specyfika : „prawdziwie ujemny współczynnik” – procent wyników negatywnych, jaki model jest w stanie wykryć.
  • Wynik F1 : Metryka , która mówi nam, jak dokładny jest model w porównaniu do sposobu dystrybucji danych.

Obliczając wartość każdej z tych metryk, możemy w pełni zrozumieć, jak dobrze model jest w stanie dokonywać prognoz.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat typowych koncepcji uczenia maszynowego:

Wprowadzenie do regresji logistycznej
Co to jest zrównoważona dokładność?
Wynik F1 a dokładność: którego powinieneś użyć?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *