Come interpretare l'output della regressione in r


Per adattare un modello di regressione lineare in R, possiamo usare il comando lm() .

Per visualizzare l’output del modello di regressione, possiamo quindi utilizzare il comando summary() .

Questo tutorial spiega come interpretare ciascun valore dell’output della regressione in R.

Esempio: interpretazione dell’output della regressione in R

Il codice seguente mostra come adattare un modello di regressione lineare multipla con il set di dati mtcars integrato utilizzando hp , drat e wt come variabili predittive e mpg come variabile di risposta:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Ecco come interpretare ciascun valore nell’output:

Chiamata

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Questa sezione ci ricorda la formula che abbiamo utilizzato nel nostro modello di regressione. Possiamo vedere che abbiamo utilizzato mpg come variabile di risposta e hp , drat e wt come variabili predittive. Ogni variabile proveniva dal set di dati chiamato mtcars .

Residuo

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Questa sezione mostra un riepilogo della distribuzione dei residui dal modello di regressione. Ricordiamo che un residuo è la differenza tra il valore osservato e il valore previsto del modello di regressione.

Il residuo minimo era -3,3598 , il residuo mediano era -0,5099 e il residuo massimo era 5,7078 .

Coefficienti

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

In questa sezione vengono visualizzati i coefficienti stimati del modello di regressione. Possiamo utilizzare questi coefficienti per formare la seguente equazione di regressione stimata:

mpg = 29,39 – 0,03*cv + 1,62*drat – 3,23*peso

Per ciascuna variabile predittrice, riceviamo i seguenti valori:

Stima: il coefficiente stimato. Questo ci dice l’aumento medio della variabile di risposta associato a un aumento di un’unità della variabile predittrice, presupponendo che tutte le altre variabili predittive rimangano costanti.

Standard. Errore : questo è l’errore standard del coefficiente. Questa è una misura dell’incertezza della nostra stima del coefficiente.

Valore t: questa è la statistica t per la variabile predittore, calcolata come (Stima)/(Errore standard).

Pr(>|t|): questo è il valore p che corrisponde alla statistica t. Se questo valore è inferiore a un certo livello alfa (ad esempio 0,05), la variabile predittiva si dice statisticamente significativa.

Se utilizzassimo un livello alfa di α = 0,05 per determinare quali predittori fossero significativi in questo modello di regressione, diremmo che hp e wt sono predittori statisticamente significativi mentre drat non lo è.

Valutazione dell’adeguatezza del modello

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Questa sezione finale mostra vari numeri che ci aiutano a valutare quanto bene il modello di regressione si adatta al nostro set di dati.

Errore standard residuo: ci dice la distanza media tra i valori osservati e la retta di regressione. Più piccolo è il valore, migliore sarà la capacità del modello di regressione di adattare i dati.

I gradi di libertà vengono calcolati come nk-1 dove n = numero totale di osservazioni e k = numero di predittori. In questo esempio, mtcars ha 32 osservazioni e abbiamo utilizzato 3 predittori nel modello di regressione, quindi i gradi di libertà sono 32 – 3 – 1 = 28.

R quadrato multiplo: questo è chiamato coefficiente di determinazione. Ci dice quanta parte della varianza nella variabile di risposta può essere spiegata dalle variabili predittive.

Questo valore varia da 0 a 1. Più si avvicina a 1, più le variabili predittive sono in grado di prevedere il valore della variabile di risposta.

R quadrato corretto: si tratta di una versione modificata di R quadrato che è stata regolata in base al numero di predittori nel modello. È sempre inferiore a R al quadrato.

L’R quadrato corretto può essere utile per confrontare l’adattamento di diversi modelli di regressione che utilizzano numeri diversi di variabili predittive.

Statistica F: indica se il modello di regressione fornisce un adattamento migliore ai dati rispetto a un modello che non contiene variabili indipendenti. Essenzialmente, verifica se il modello di regressione nel suo insieme è utile.

Valore p: questo è il valore p che corrisponde alla statistica F. Se questo valore è inferiore a un certo livello di significatività (ad esempio 0,05), il modello di regressione si adatta meglio ai dati rispetto a un modello senza predittori.

Quando costruiamo modelli di regressione, speriamo che questo valore p sia inferiore a un certo livello di significatività, perché indica che le variabili predittive sono effettivamente utili nel prevedere il valore della variabile di risposta.

Risorse addizionali

Come eseguire una regressione lineare semplice in R
Come eseguire la regressione lineare multipla in R
Qual è un buon valore R quadrato?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *