Come interpretare l'output della regressione in excel
La regressione lineare multipla è una delle tecniche più comunemente utilizzate in tutta la statistica.
Questo tutorial spiega come interpretare ciascun valore nell’output di un modello di regressione lineare multipla in Excel.
Esempio: interpretazione dell’output della regressione in Excel
Supponiamo di voler sapere se il numero di ore trascorse a studiare e il numero di esami preparatori sostenuti influiscono sul voto che uno studente ottiene in un determinato esame di ammissione all’università.
Per esplorare questa relazione, possiamo eseguire una regressione lineare multipla utilizzando le ore studiate e gli esami preparatori presi come variabili predittive e i punteggi degli esami come variabile di risposta.
La schermata seguente mostra l’output della regressione di questo modello in Excel:
Ecco come interpretare i valori più grandi nell’output:
R multiplo: 0,857 . Ciò rappresenta la correlazione multipla tra la variabile di risposta e le due variabili predittive.
R quadrato: 0,734 . Questo è chiamato coefficiente di determinazione. È la proporzione della varianza della variabile di risposta che può essere spiegata dalle variabili esplicative. In questo esempio, il 73,4% della variazione dei punteggi degli esami è spiegata dal numero di ore studiate e dal numero di esami preparatori sostenuti.
R quadrato corretto: 0,703 . Questo rappresenta il valore R quadrato, aggiustato per il numero di variabili predittive nel modello . Questo valore sarà inoltre inferiore al valore R quadrato e penalizzerà i modelli che utilizzano troppe variabili predittive nel modello.
Errore standard: 5.366 . Questa è la distanza media tra i valori osservati e la retta di regressione. In questo esempio i valori osservati si discostano in media di 5.366 unità dalla retta di regressione.
Commenti: 20 . Dimensione totale del campione del set di dati utilizzato per produrre il modello di regressione.
F: 23:46 Questa è la statistica F complessiva per il modello di regressione, calcolata come MS di regressione/MS residuo.
Significato F: 0.0000 . Questo è il valore p associato alla statistica F complessiva. Questo ci dice se il modello di regressione nel suo insieme è statisticamente significativo o meno.
In questo caso, il valore p è inferiore a 0,05, indicando che le variabili esplicative , le ore studiate e gli esami preparatori sostenuti combinati, hanno un’associazione statisticamente significativa con il risultato dell’esame .
Coefficienti: i coefficienti di ciascuna variabile esplicativa ci dicono la variazione media attesa nella variabile di risposta, assumendo che l’altra variabile esplicativa rimanga costante.
Ad esempio, per ogni ora aggiuntiva trascorsa a studiare, il punteggio medio dell’esame dovrebbe aumentare di 5,56 , assumendo che gli esami pratici sostenuti rimangano costanti.
Interpretiamo il coefficiente di intercetta nel senso che il punteggio atteso dell’esame per uno studente che non studia ore e non sostiene esami preparatori è 67,67 .
Valori P. I valori p individuali ci dicono se ciascuna variabile esplicativa è statisticamente significativa o meno. Possiamo vedere che le ore studiate sono statisticamente significative (p = 0,00) mentre gli esami preparatori sostenuti (p = 0,52) non sono statisticamente significativi con α = 0,05.
Come scrivere l’equazione di regressione stimata
Possiamo utilizzare i coefficienti dell’output del modello per creare la seguente equazione di regressione stimata:
Punteggio esame = 67,67 + 5,56*(ore) – 0,60*(esami preparatori)
Possiamo utilizzare questa equazione di regressione stimata per calcolare il punteggio atteso dell’esame per uno studente, in base al numero di ore di studio e al numero di esami pratici sostenuti.
Ad esempio, uno studente che studia per tre ore e sostiene un esame di preparazione dovrebbe ottenere un voto di 83,75 :
Punteggio dell’esame = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Tieni presente che poiché gli esami preparatori precedenti non erano statisticamente significativi (p=0,52), potremmo decidere di rimuoverli poiché non forniscono alcun miglioramento al modello complessivo.
In questo caso potremmo eseguire una semplice regressione lineare utilizzando solo le ore studiate come variabile esplicativa.
Risorse addizionali
Introduzione alla regressione lineare semplice
Introduzione alla regressione lineare multipla