Jak interpretować krzywą roc (z przykładami)


Regresja logistyczna to metoda statystyczna, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Aby ocenić, jak dobrze model regresji logistycznej pasuje do zbioru danych, możemy przyjrzeć się następującym dwóm metrykom:

  • Czułość: prawdopodobieństwo, że model przewiduje pozytywny wynik obserwacji, gdy wynik jest rzeczywiście pozytywny.
  • Specyfika: prawdopodobieństwo, że model przewiduje negatywny wynik obserwacji, gdy wynik jest faktycznie negatywny.

Prostym sposobem wizualizacji tych dwóch metryk jest utworzenie krzywej ROC , czyli wykresu przedstawiającego czułość i swoistość modelu regresji logistycznej.

W tym samouczku wyjaśniono, jak utworzyć i zinterpretować krzywą ROC.

Jak utworzyć krzywą ROC

Po dopasowaniu modelu regresji logistycznej możemy go użyć do sklasyfikowania obserwacji w jednej z dwóch kategorii.

Na przykład moglibyśmy sklasyfikować obserwacje jako „pozytywne” i „negatywne”.

Prawdziwie dodatni współczynnik reprezentuje odsetek obserwacji, które powinny być dodatnie, gdy w rzeczywistości są.

I odwrotnie, odsetek wyników fałszywie dodatnich reprezentuje odsetek obserwacji, które powinny być dodatnie, ale w rzeczywistości są ujemne.

Tworząc krzywą ROC, wykreślamy pary prawdziwie dodatniego współczynnika i fałszywie dodatniego współczynnika dla każdego możliwego progu decyzyjnego modelu regresji logistycznej.

Jak interpretować krzywą ROC

Im bardziej krzywa ROC pasuje do lewego górnego rogu wykresu, tym lepiej model jest w stanie sklasyfikować dane w kategorie.

Aby to określić ilościowo, możemy obliczyć AUC (obszar pod krzywą), który mówi nam, jaka część wykresu znajduje się pod krzywą.

Im AUC jest bliższe 1, tym lepszy model.

Model z AUC równym 0,5 byłby linią idealnie ukośną i reprezentowałby model, który nie jest lepszy od modelu dokonującego losowych klasyfikacji.

Szczególnie przydatne jest obliczenie AUC dla wielu modeli regresji logistycznej, ponieważ pozwala nam zobaczyć, który model najlepiej prognozuje.

Załóżmy na przykład, że dopasowujemy trzy różne modele regresji logistycznej i wykreślamy następujące krzywe ROC dla każdego modelu:

Załóżmy, że obliczamy AUC dla każdego modelu w następujący sposób:

  • Model A: AUC = 0,923
  • Model B: AUC = 0,794
  • Model C: AUC = 0,588

Model A ma najwyższe AUC, co oznacza, że ma największe pole pod krzywą i jest najlepszym modelem do prawidłowego klasyfikowania obserwacji w kategorie.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak tworzyć krzywe ROC przy użyciu różnych programów statystycznych:

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *