Jak interpretować statystykę c modelu regresji logistycznej
Ten samouczek zawiera proste wyjaśnienie, jak interpretować statystykę C modelu regresji logistycznej.
Co to jest regresja logistyczna?
Regresja logistyczna to metoda statystyczna, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Oto kilka przykładów zastosowania regresji logistycznej:
- Chcemy wiedzieć, jak ćwiczenia, dieta i waga wpływają na prawdopodobieństwo zawału serca. Zmienną odpowiedzi jest zawał serca , który ma dwa potencjalne skutki: zawał serca następuje lub nie występuje.
- Chcemy wiedzieć, jak GPA, wynik ACT i liczba odbytych kursów AP wpływają na prawdopodobieństwo przyjęcia na konkretną uczelnię. Zmienną odpowiedzi jest akceptacja i ma ona dwa potencjalne wyniki: zaakceptowanie lub niezaakceptowanie.
- Chcemy wiedzieć, czy liczba słów i tytuł wiadomości e-mail wpływają na prawdopodobieństwo, że wiadomość e-mail jest spamem. Zmienną odpowiedzi jest spam i ma ona dwa potencjalne skutki: spam lub brak spamu.
Należy pamiętać, że zmienne predykcyjne mogą być liczbowe lub kategoryczne; ważne jest, aby zmienna odpowiedzi była binarna. W takim przypadku regresja logistyczna jest właściwym modelem do wyjaśnienia związku między zmiennymi predykcyjnymi a zmienną odpowiedzi.
Jak ocenić adekwatność modelu regresji logistycznej
Kiedy już dopasujemy model regresji logistycznej do zbioru danych, często interesuje nas, jak dobrze model pasuje do danych. W szczególności interesuje nas zdolność modelu do dokładnego przewidywania pozytywnych i negatywnych wyników.
Czułość odnosi się do prawdopodobieństwa, że model przewiduje pozytywny wynik obserwacji, podczas gdy wynik jest rzeczywiście pozytywny.
Specyficzność odnosi się do prawdopodobieństwa, że model przewiduje negatywny wynik obserwacji, podczas gdy wynik jest faktycznie negatywny.
Model regresji logistycznej jest idealny do klasyfikacji obserwacji, jeśli ma 100% czułość i swoistość, ale w praktyce prawie nigdy się to nie zdarza.
Po dopasowaniu modelu regresji logistycznej można go wykorzystać do obliczenia prawdopodobieństwa, że dana obserwacja będzie miała pozytywny wynik, w oparciu o wartości zmiennych predykcyjnych.
Aby określić, czy obserwacja powinna zostać sklasyfikowana jako dodatnia, możemy wybrać taki próg, że obserwacje ze skorygowanym prawdopodobieństwem powyżej progu zostaną sklasyfikowane jako pozytywne, a wszystkie obserwacje z skorygowanym prawdopodobieństwem poniżej progu zostaną sklasyfikowane jako negatywne. .
Załóżmy na przykład, że wybieramy próg 0,5. Oznacza to, że każda obserwacja ze skorygowanym prawdopodobieństwem większym niż 0,5 będzie miała wynik pozytywny, podczas gdy każda obserwacja z skorygowanym prawdopodobieństwem mniejszym lub równym 0,5 będzie miała wynik negatywny.
Wykreślanie krzywej ROC
Jednym z najczęstszych sposobów wizualizacji czułości w funkcji specyficzności modelu jest wykreślenie krzywej charakterystyki działania odbiornika ( ROC ), która jest wykresem wartości czułości w funkcji specyficzności 1 jako wartości progu. punkt przechodzi od 0 do 1:
Model o wysokiej czułości i swoistości będzie miał krzywą ROC pasującą do lewego górnego rogu wykresu. Model o niskiej czułości i niskiej swoistości będzie miał krzywą zbliżoną do przekątnej 45 stopni.
AUC (obszar pod krzywą) daje nam wyobrażenie o zdolności modelu do rozróżnienia wyników pozytywnych i negatywnych. AUC może mieścić się w zakresie od 0 do 1. Im wyższe AUC, tym lepiej model poprawnie klasyfikuje wyniki.
Oznacza to, że model z krzywą ROC obejmującą lewy górny róg wykresu miałby duże pole pod krzywą i dlatego byłby modelem, który dobrze radzi sobie z poprawną klasyfikacją wyników. I odwrotnie, model z krzywą ROC obejmującą przekątną 45 stopni miałby niski obszar pod krzywą i dlatego byłby modelem, który nie radzi sobie dobrze z klasyfikacją wyników.
Zrozumienie statystyki C
Statystyka c , znana również jako statystyka zgodności , jest równa AUC (powierzchni pod krzywą) i ma następujące interpretacje:
- Wartość mniejsza niż 0,5 oznacza słaby model.
- Wartość 0,5 wskazuje, że model nie jest lepszy w klasyfikowaniu wyników niż przypadek.
- Im wartość jest bliższa 1, tym lepiej model jest w stanie poprawnie sklasyfikować wyniki.
- Wartość 1 oznacza, że model doskonale nadaje się do klasyfikowania wyników.
Zatem statystyka C daje nam wyobrażenie o tym, jak skuteczny jest model w prawidłowej klasyfikacji wyników.
W warunkach klinicznych możliwe jest obliczenie statystyki C poprzez wzięcie wszystkich możliwych par osób, tj. osoby, która doświadczyła wyniku pozytywnego i osoby, która doświadczyła wyniku negatywnego. Następnie można obliczyć statystykę c jako odsetek takich par, w których osoba, która doświadczyła pozytywnego wyniku, miała wyższe przewidywane prawdopodobieństwo przeżycia wyniku niż osoba, która nie doświadczyła pozytywnego wyniku.
Załóżmy na przykład, że dopasowujemy model regresji logistycznej, wykorzystując zmienne predykcyjne, takie jak wiek i ciśnienie krwi , do przewidywania prawdopodobieństwa zawału serca.
Aby znaleźć statystykę c modelu, byliśmy w stanie zidentyfikować wszystkie możliwe pary osób, składające się z osoby, która miała zawał serca i osoby, która nie miała zawału serca. Następnie statystykę c można obliczyć jako odsetek tych par, w których osoba, która doznała zawału serca, faktycznie miała wyższe przewidywane prawdopodobieństwo wystąpienia zawału serca w porównaniu z osobą, która nie doznała zawału serca. zawał serca.
Wniosek
W tym artykule dowiedzieliśmy się, co następuje:
- Regresja logistyczna to metoda statystyczna, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna.
- Aby ocenić stopień dopasowania modelu regresji logistycznej, możemy przyjrzeć się czułości i swoistości , które mówią nam, jak dobrze model jest w stanie poprawnie klasyfikować wyniki.
- Aby zwizualizować czułość i swoistość, możemy utworzyć krzywą ROC .
- AUC (obszar pod krzywą) wskazuje, jak dobrze model jest w stanie poprawnie sklasyfikować wyniki. Kiedy krzywa ROC przylega do lewego górnego rogu wykresu, oznacza to, że model pomyślnie klasyfikuje wyniki.
- Statystyka c jest równa AUC (pole pod krzywą) i można ją również obliczyć, biorąc wszystkie możliwe pary osób, tj. osobę, która doświadczyła wyniku pozytywnego i osobę, która doświadczyła wyniku negatywnego. Następnie statystyka c jest proporcją takich par, w których osoba, która doświadczyła pozytywnego wyniku, miała wyższe przewidywane prawdopodobieństwo doświadczenia wyniku niż osoba, która nie doświadczyła pozytywnego wyniku.
- Im statystyka C jest bliższa 1, tym dokładniej model jest w stanie klasyfikować wyniki.