Come interpretare l'output della regressione in r
Per adattare un modello di regressione lineare in R, possiamo usare il comando lm() .
Per visualizzare l’output del modello di regressione, possiamo quindi utilizzare il comando summary() .
Questo tutorial spiega come interpretare ciascun valore dell’output della regressione in R.
Esempio: interpretazione dell’output della regressione in R
Il codice seguente mostra come adattare un modello di regressione lineare multipla con il set di dati mtcars integrato utilizzando hp , drat e wt come variabili predittive e mpg come variabile di risposta:
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
Ecco come interpretare ciascun valore nell’output:
Chiamata
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
Questa sezione ci ricorda la formula che abbiamo utilizzato nel nostro modello di regressione. Possiamo vedere che abbiamo utilizzato mpg come variabile di risposta e hp , drat e wt come variabili predittive. Ogni variabile proveniva dal set di dati chiamato mtcars .
Residuo
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
Questa sezione mostra un riepilogo della distribuzione dei residui dal modello di regressione. Ricordiamo che un residuo è la differenza tra il valore osservato e il valore previsto del modello di regressione.
Il residuo minimo era -3,3598 , il residuo mediano era -0,5099 e il residuo massimo era 5,7078 .
Coefficienti
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
In questa sezione vengono visualizzati i coefficienti stimati del modello di regressione. Possiamo utilizzare questi coefficienti per formare la seguente equazione di regressione stimata:
mpg = 29,39 – 0,03*cv + 1,62*drat – 3,23*peso
Per ciascuna variabile predittrice, riceviamo i seguenti valori:
Stima: il coefficiente stimato. Questo ci dice l’aumento medio della variabile di risposta associato a un aumento di un’unità della variabile predittrice, presupponendo che tutte le altre variabili predittive rimangano costanti.
Standard. Errore : questo è l’errore standard del coefficiente. Questa è una misura dell’incertezza della nostra stima del coefficiente.
Valore t: questa è la statistica t per la variabile predittore, calcolata come (Stima)/(Errore standard).
Pr(>|t|): questo è il valore p che corrisponde alla statistica t. Se questo valore è inferiore a un certo livello alfa (ad esempio 0,05), la variabile predittiva si dice statisticamente significativa.
Se utilizzassimo un livello alfa di α = 0,05 per determinare quali predittori fossero significativi in questo modello di regressione, diremmo che hp e wt sono predittori statisticamente significativi mentre drat non lo è.
Valutazione dell’adeguatezza del modello
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
Questa sezione finale mostra vari numeri che ci aiutano a valutare quanto bene il modello di regressione si adatta al nostro set di dati.
Errore standard residuo: ci dice la distanza media tra i valori osservati e la retta di regressione. Più piccolo è il valore, migliore sarà la capacità del modello di regressione di adattare i dati.
I gradi di libertà vengono calcolati come nk-1 dove n = numero totale di osservazioni e k = numero di predittori. In questo esempio, mtcars ha 32 osservazioni e abbiamo utilizzato 3 predittori nel modello di regressione, quindi i gradi di libertà sono 32 – 3 – 1 = 28.
R quadrato multiplo: questo è chiamato coefficiente di determinazione. Ci dice quanta parte della varianza nella variabile di risposta può essere spiegata dalle variabili predittive.
Questo valore varia da 0 a 1. Più si avvicina a 1, più le variabili predittive sono in grado di prevedere il valore della variabile di risposta.
R quadrato corretto: si tratta di una versione modificata di R quadrato che è stata regolata in base al numero di predittori nel modello. È sempre inferiore a R al quadrato.
L’R quadrato corretto può essere utile per confrontare l’adattamento di diversi modelli di regressione che utilizzano numeri diversi di variabili predittive.
Statistica F: indica se il modello di regressione fornisce un adattamento migliore ai dati rispetto a un modello che non contiene variabili indipendenti. Essenzialmente, verifica se il modello di regressione nel suo insieme è utile.
Valore p: questo è il valore p che corrisponde alla statistica F. Se questo valore è inferiore a un certo livello di significatività (ad esempio 0,05), il modello di regressione si adatta meglio ai dati rispetto a un modello senza predittori.
Quando costruiamo modelli di regressione, speriamo che questo valore p sia inferiore a un certo livello di significatività, perché indica che le variabili predittive sono effettivamente utili nel prevedere il valore della variabile di risposta.
Risorse addizionali
Come eseguire una regressione lineare semplice in R
Come eseguire la regressione lineare multipla in R
Qual è un buon valore R quadrato?