Jak używać predict() z modelem regresji logistycznej w r

Przez Benjamin Anderson 11 lipca, 2023 Przewodnik 0 komentarzy

Po dopasowaniu modelu regresji logistycznej w R możemy użyć funkcji przewidywania(), aby przewidzieć wartość odpowiedzi nowej obserwacji, której model nigdy wcześniej nie widział.

Ta funkcja używa następującej składni:

przewidywanie (obiekt, nowe dane, typ = „odpowiedź”)

Złoto:

obiekt: Nazwa modelu regresji logistycznej
newdata: nazwa nowej ramki danych, dla której mają zostać wykonane prognozy
type: typ przewidywania, które ma zostać wykonane

Poniższy przykład pokazuje, jak w praktyce wykorzystać tę funkcję.

Przykład: użycie funkcji Predict() z modelem regresji logistycznej w języku R

W tym przykładzie użyjemy wbudowanego zbioru danych R o nazwie mtcars :

 #view first six rows of mtcars dataset
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Dopasujemy następujący model regresji logistycznej, w którym wykorzystujemy zmienne disp i hp do przewidywania zmiennej odpowiedzi am (typ skrzyni biegów samochodu: 0 = automatyczna, 1 = ręczna):

 #fit logistic regression model
model <- glm(am ~ disp + hp, data=mtcars, family=binomial)

#view model summary
summary(model)

Call:
glm(formula = am ~ disp + hp, family = binomial, data = mtcars)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.9665 -0.3090 -0.0017 0.3934 1.3682  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) 1.40342 1.36757 1.026 0.3048  
available -0.09518 0.04800 -1.983 0.0474 *
hp 0.12170 0.06777 1.796 0.0725 .
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43,230 on 31 degrees of freedom
Residual deviance: 16,713 on 29 degrees of freedom
AIC: 22,713

Number of Fisher Scoring iterations: 8

Możemy następnie utworzyć nową ramkę danych zawierającą informacje o ośmiu samochodach, których model nigdy wcześniej nie widział, i użyć funkcji przewidywania() , aby przewidzieć prawdopodobieństwo, że nowy samochód będzie wyposażony w automatyczną skrzynię biegów (am=0) lub ręczną skrzynię biegów ( rano =1):

 #define new data frame
newdata = data. frame (disp=c(200, 180, 160, 140, 120, 120, 100, 160),
                     hp=c(100, 90, 108, 90, 80, 90, 80, 90),
                     am=c(0, 0, 0, 1, 0, 1, 1, 1))

#view data frame
newdata

#use model to predict value of am for all new cars
newdata$am_prob <- predict(model, newdata, type=" response ")

#view updated data frame
newdata

  disp hp am am_prob
1 200 100 0 0.004225640
2 180 90 0 0.008361069
3 160 108 0 0.335916069
4 140 90 1 0.275162866
5 120 80 0 0.429961894
6 120 90 1 0.718090728
7 100 80 1 0.835013994
8 160 90 1 0.053546152

Oto jak zinterpretować wynik:

Prawdopodobieństwo, że samochód 1 ma ręczną skrzynię biegów, wynosi 0,004 .
Prawdopodobieństwo, że samochód 2 ma ręczną skrzynię biegów, wynosi 0,008 .
Prawdopodobieństwo, że samochód 3 ma ręczną skrzynię biegów, wynosi 0,336 .

I tak dalej.

Możemy również użyć funkcji table() , aby utworzyć macierz zamieszania, która wyświetla rzeczywiste wartości am w porównaniu z wartościami przewidywanymi przez model:

 #create vector that contains 0 or 1 depending on predicted value of am
am_pred = rep(0, dim(newdata)[1])
am_pred[newdata$am_prob > .5] = 1

#create confusion matrix
table(am_pred, newdata$am)

am_pred 0 1
      0 4 2
      1 0 2

Na koniec możemy użyć funkcji Mean() do obliczenia procentu obserwacji w nowej bazie danych, dla których model poprawnie przewidział wartość am :

 #calculate percentage of observations the model correctly predicted response value for
mean(am_pred == newdata$am)

[1] 0.75

Widzimy, że model poprawnie przewidział wartość am dla 75% samochodów w nowej bazie danych.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:

Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jak wykonać regresję wielomianową w R
Jak utworzyć przedział przewidywania w R

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

Przykład: użycie funkcji Predict() z modelem regresji logistycznej w języku R

Dodatkowe zasoby

o autorze

Dr Benjamin Anderson

Dodaj komentarz