Jak utworzyć krzywą roc w programie excel (krok po kroku)
Regresja logistyczna to metoda statystyczna, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Aby ocenić, jak dobrze model regresji logistycznej pasuje do zbioru danych, możemy przyjrzeć się następującym dwóm metrykom:
- Czułość: prawdopodobieństwo, że model przewiduje pozytywny wynik obserwacji, gdy wynik jest rzeczywiście pozytywny. Nazywa się to również „prawdziwie dodatnią stopą procentową”.
- Specyficzność: prawdopodobieństwo, że model przewiduje negatywny wynik obserwacji, gdy wynik jest faktycznie negatywny. Nazywa się to również „prawdziwie ujemną stopą”.
Jednym ze sposobów wizualizacji tych dwóch pomiarów jest utworzenie krzywej ROC , która oznacza krzywą „charakterystyki działania odbiornika”. To jest wykres przedstawiający czułość i swoistość modelu regresji logistycznej.
Poniższy przykład pokazuje krok po kroku, jak utworzyć i zinterpretować krzywą ROC w programie Excel.
Krok 1: Wprowadź dane
Zacznijmy od wprowadzenia surowych danych:
Krok 2: Oblicz dane skumulowane
Następnie skorzystajmy z poniższego wzoru, aby obliczyć skumulowane wartości dla kategorii Pass i Fail:
- Skumulowane wartości sukcesu: =SUMA($B$3:B3)
- Skumulowane wartości błędów: =SUMA($C$3:C3)
Następnie skopiujemy i wkleimy te formuły do każdej komórki w kolumnie D i kolumnie E:
Krok 3: Oblicz współczynnik fałszywie dodatni i odsetek prawdziwie dodatni
Następnie obliczymy współczynnik wyników fałszywie dodatnich (FPR), współczynnik prawdziwie dodatnich (TPR) i pole pod krzywą (AUC), korzystając z następujących wzorów:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(F3-F4)*G3
Następnie skopiujemy i wkleimy te formuły do każdej komórki w kolumnach F, G i H:
Krok 4: Utwórz krzywą ROC
Aby utworzyć krzywą ROC, podświetlimy każdą wartość w zakresie F3:G14 .
Następnie klikniemy kartę Wstaw na górnej wstążce, a następnie kliknij opcję Wstaw symbol punktowy (X, Y) , aby utworzyć następującą ścieżkę:
Krok 5: Oblicz AUC
Im bardziej krzywa pasuje do lewego górnego rogu wykresu, tym lepiej model jest w stanie sklasyfikować dane w kategorie.
Jak widać na powyższym wykresie, ten model regresji logistycznej bardzo dobrze radzi sobie z klasyfikacją danych na kategorie.
Aby to określić ilościowo, możemy obliczyć AUC (obszar pod krzywą), który mówi nam, jaka część wykresu znajduje się pod krzywą.
Im AUC jest bliższe 1, tym lepszy model. Model z AUC równym 0,5 nie jest lepszy od modelu przeprowadzającego losową klasyfikację.
Aby obliczyć AUC krzywej, możemy po prostu dodać wszystkie wartości z kolumny H:
Okazuje się, że AUC wynosi 0,802662 . Wartość ta jest dość wysoka, co wskazuje, że model dobrze radzi sobie z klasyfikacją danych w kategoriach „Zaliczony” i „Niezaliczony”.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak tworzyć inne popularne wykresy w programie Excel:
Jak wykreślić CDF w programie Excel
Jak utworzyć krzywą przeżycia w programie Excel
Jak utworzyć statystyczny wykres kontroli procesu w programie Excel