Come interpretare i coefficienti di regressione
In statistica, l’analisi di regressione è una tecnica che può essere utilizzata per analizzare la relazione tra variabili predittive e una variabile di risposta.
Quando utilizzi software (come R , Stata , SPSS , ecc.) per eseguire l’analisi di regressione, riceverai come output una tabella di regressione che riassume i risultati della regressione.
Probabilmente i numeri più importanti nel risultato della tabella di regressione sono i coefficienti di regressione . Eppure, nonostante la loro importanza, molte persone faticano a interpretare correttamente questi numeri.
Questo tutorial presenta un esempio di analisi di regressione e fornisce una spiegazione dettagliata su come interpretare i coefficienti di regressione risultanti dalla regressione.
Correlato: Come leggere e interpretare un’intera tabella di regressione
Un esempio di analisi di regressione
Supponiamo di voler eseguire un’analisi di regressione utilizzando le seguenti variabili:
Variabili predittive
- Numero totale di ore studiate ( variabile continua – tra 0 e 20 )
- Se lo studente ha utilizzato o meno un tutor ( variabile categoriale – “sì” o “no” )
Variabile di risposta
- Punteggio dell’esame (variabile continua – tra 1 e 100 )
Vogliamo esaminare la relazione tra le variabili predittive e la variabile di risposta per vedere se le ore studiate e se uno studente ha utilizzato o meno un tutor hanno effettivamente un impatto significativo sul voto dell’esame.
Supponiamo di eseguire un’analisi di regressione e di ottenere il seguente risultato:
Termine | Coefficiente | Errore standard | t Statistiche | Valore P |
---|---|---|---|---|
Intercettare | 48.56 | 14:32 | 3.39 | 0,002 |
Ore studiate | 2.03 | 0,67 | 3.03 | 0,009 |
Tutore | 8.34 | 5.68 | 1.47 | 0,138 |
Vediamo come interpretare ciascun coefficiente di regressione.
Interpretazione dell’intercettazione
Il termine originale in una tabella di regressione ci indica il valore medio atteso per la variabile di risposta quando tutte le variabili predittive sono uguali a zero.
In questo esempio, il coefficiente di regressione per l’origine è pari a 48,56 . Ciò significa che per uno studente che ha studiato zero ore ( Ore studiate=0) e non si è avvalso di un tutor ( Tutor=0), il punteggio medio atteso dell’esame è 48,56.
È importante notare che il coefficiente di regressione per l’intercetta è significativo solo se è ragionevole che tutte le variabili predittive nel modello possano effettivamente essere uguali a zero. In questo esempio è certamente possibile che uno studente abbia studiato zero ore ( Ore studiate=0) e inoltre non si sia avvalso di un tutor ( Tutor=0). Pertanto, l’interpretazione del coefficiente di regressione dell’intercetta è significativa in questo esempio.
In alcuni casi, tuttavia, il coefficiente di regressione per l’intercetta non è significativo. Ad esempio, supponiamo di aver eseguito un’analisi di regressione utilizzando la metratura come variabile predittrice e il valore della casa come variabile di risposta.
Nella tabella di regressione di output, il coefficiente di regressione per il termine originale non avrebbe un’interpretazione significativa poiché la metratura di una casa non può mai essere uguale a zero. In questo caso, il coefficiente di regressione per il termine originale ancora semplicemente la linea di regressione nel posto giusto.
Interpretazione del coefficiente di una variabile predittrice continua
Per una variabile predittiva continua, il coefficiente di regressione rappresenta la differenza tra il valore previsto della variabile di risposta per ogni variazione di un’unità nella variabile predittiva, presupponendo che tutte le altre variabili predittive rimangano costanti.
In questo esempio, le ore studiate sono una variabile predittiva continua che varia da 0 a 20 ore. In alcuni casi, uno studente ha studiato solo per zero ore e in altri casi, uno studente ha studiato fino a 20 ore.
Dal risultato della regressione, possiamo vedere che il coefficiente di regressione per le ore studiate è 2,03 . Ciò significa che in media ogni ora di studio in più è associata ad un incremento di 2,03 punti sull’esame finale, assumendo costante la variabile predittiva Tutor .
Consideriamo ad esempio lo studente A che studia per 10 ore e si avvale di un tutor. Considera anche lo studente B che studia 11 ore e si avvale anche di un tutor. Secondo i risultati della nostra regressione, ci si aspetta che lo Studente B ottenga un punteggio superiore di 2,03 punti all’esame rispetto allo Studente A.
Il valore p della tabella di regressione ci dice se questo coefficiente di regressione è effettivamente statisticamente significativo o meno. Possiamo vedere che il valore p per le ore studiate è 0,009 , che è statisticamente significativo a un livello alfa di 0,05.
Nota: il livello alfa deve essere scelto prima di eseguire l’analisi di regressione: le scelte comuni per il livello alfa sono 0,01, 0,05 e 0,10.
Articolo correlato: una spiegazione dei valori P e del loro significato statistico
Interpretazione del coefficiente di una variabile predittrice categoriale
Per una variabile predittore categoriale, il coefficiente di regressione rappresenta la differenza nel valore previsto della variabile di risposta tra la categoria per la quale la variabile predittore = 0 e la categoria per la quale la variabile predittore = 1.
In questo esempio, Tutor è una variabile predittore categoriale che può assumere due valori diversi:
- 1 = lo studente si è avvalso di un tutor per preparare l’esame
- 0 = lo studente non si è avvalso di un tutor per preparare l’esame
Dal risultato della regressione, possiamo vedere che il coefficiente di regressione per Tutor è 8,34 . Ciò significa che in media uno studente che ha utilizzato un tutor ha ottenuto all’esame un punteggio maggiore di 8,34 punti rispetto a uno studente che non ha utilizzato un tutor, assumendo che la variabile predittore Ore studiate rimanga costante.
Consideriamo ad esempio lo studente A che studia per 10 ore e si avvale di un tutor. Considera anche lo studente B che studia 10 ore e non si avvale di un tutor. Secondo i nostri risultati di regressione, si prevede che lo Studente A abbia un punteggio all’esame superiore di 8,34 punti rispetto allo Studente B.
Il valore p della tabella di regressione ci dice se questo coefficiente di regressione è effettivamente statisticamente significativo o meno. Possiamo vedere che il valore p per Tutor è 0,138 , che non è statisticamente significativo a un livello alfa di 0,05. Ciò indica che, sebbene gli studenti che hanno utilizzato un tutor abbiano ottenuto risultati migliori all’esame, questa differenza potrebbe essere dovuta al caso.
Interpretare tutti i coefficienti contemporaneamente
Possiamo utilizzare tutti i coefficienti nella tabella di regressione per creare la seguente equazione di regressione stimata:
Punteggio atteso dell’esame = 48,56 + 2,03*(Ore studiate) + 8,34*(Tutor)
Nota : tenere presente che la variabile predittore “Tutor” non era statisticamente significativa al livello alfa 0,05, pertanto è possibile scegliere di rimuovere questo predittore dal modello e di non utilizzarlo nella stima finale dell’equazione di regressione.
Utilizzando questa equazione di regressione stimata, possiamo prevedere il voto finale dell’esame di uno studente in base al numero totale di ore di studio e al fatto che abbia utilizzato o meno un tutor.
Ad esempio, uno studente che ha studiato per 10 ore e si è avvalso di un tutor dovrebbe ricevere un punteggio dell’esame di:
Punteggio atteso dell’esame = 48,56 + 2,03*(10) + 8,34*(1) = 77,2
Tenere conto della correlazione nell’interpretazione dei coefficienti di regressione
È importante tenere presente che le variabili predittive possono influenzarsi a vicenda in un modello di regressione. Ad esempio, la maggior parte delle variabili predittive saranno almeno in qualche modo correlate tra loro (ad esempio, uno studente che studia di più avrà anche maggiori probabilità di utilizzare un tutor).
Ciò significa che i coefficienti di regressione cambieranno quando diverse variabili predittive verranno aggiunte o rimosse dal modello.
Un buon modo per vedere se la correlazione tra le variabili predittive è abbastanza grave da influenzare seriamente il modello di regressione è controllare il VIF tra le variabili predittive .
Questo ti dirà se la correlazione tra le variabili predittive è un problema che deve essere risolto prima di decidere di interpretare i coefficienti di regressione.
Se si esegue un modello di regressione lineare semplice con un singolo predittore, le variabili predittive correlate non costituiranno un problema.