Come interpretare i valori p nella regressione lineare (con esempio)
In statistica, i modelli di regressione lineare vengono utilizzati per quantificare la relazione tra una o più variabili predittive e una variabile di risposta .
Ogni volta che esegui un’analisi di regressione utilizzando un software statistico, riceverai una tabella di regressione che riassume i risultati del modello.
Due dei valori più importanti in una tabella di regressione sono i coefficienti di regressione e i corrispondenti valori p .
I valori p indicano se esiste o meno una relazione statisticamente significativa tra ciascuna variabile predittrice e la variabile di risposta.
L’esempio seguente mostra come interpretare nella pratica i valori p di un modello di regressione lineare multipla .
Esempio: interpretazione dei valori P in un modello di regressione
Supponiamo di voler adattare un modello di regressione utilizzando le seguenti variabili:
Variabili predittive
- Numero totale di ore studiate (tra 0 e 20)
- Se lo studente ha utilizzato o meno un tutor (sì o no)
Variabile di risposta
- Punteggio dell’esame (tra 0 e 100)
Vogliamo esaminare la relazione tra le variabili predittive e la variabile risposta per scoprire se le ore di studio e di tutoraggio hanno effettivamente un impatto significativo sui punteggi degli esami.
Supponiamo di eseguire un’analisi di regressione e di ottenere il seguente risultato:
Termine | Coefficiente | Errore standard | t Statistiche | Valore P |
---|---|---|---|---|
Intercettare | 48.56 | 14:32 | 3.39 | 0,002 |
Ore studiate | 2.03 | 0,67 | 3.03 | 0,009 |
Tutore | 8.34 | 5.68 | 1.47 | 0,138 |
Ecco come interpretare il risultato di ciascun termine nel modello:
Interpretazione del valore P per l’intercetta
Il termine originale in una tabella di regressione ci indica il valore medio atteso per la variabile di risposta quando tutte le variabili predittive sono uguali a zero.
In questo esempio, il coefficiente di regressione per l’origine è pari a 48,56 . Ciò significa che per uno studente che ha studiato zero ore , il punteggio medio previsto per l’esame è 48,56.
Il valore p è 0,002 , il che ci dice che il termine originale è statisticamente diverso da zero.
In pratica, generalmente non ci interessa il valore p del termine originale. Anche se il valore p non è inferiore a un certo livello di significatività (ad esempio 0,05), manterremo comunque il termine originale nel modello.
Interpretazione del valore P per una variabile predittrice continua
In questo esempio, le ore studiate sono una variabile predittiva continua che varia da 0 a 20 ore.
Dal risultato della regressione, possiamo vedere che il coefficiente di regressione per le ore studiate è 2,03 . Ciò significa che in media ogni ora di studio in più è associata ad un incremento di 2,03 punti sull’esame finale, assumendo costante la variabile predittiva Tutor .
Consideriamo ad esempio lo studente A che studia per 10 ore e si avvale di un tutor. Considera anche lo studente B che studia 11 ore e si avvale anche di un tutor. Secondo i risultati della nostra regressione, ci si aspetta che lo Studente B ottenga un punteggio superiore di 2,03 punti all’esame rispetto allo Studente A.
Il valore p corrispondente è 0,009 , che è statisticamente significativo a un livello alfa di 0,05.
Questo ci dice che la variazione media dei punteggi degli esami per ogni ora aggiuntiva studiata è statisticamente significativamente diversa da zero .
In altre parole: le ore studiate hanno una relazione statisticamente significativa con la variabile di risposta del punteggio dell’esame .
Interpretazione del valore P per una variabile predittrice categoriale
In questo esempio, Tutor è una variabile predittore categoriale che può assumere due valori diversi:
- 1 = lo studente si è avvalso di un tutor per preparare l’esame
- 0 = lo studente non si è avvalso di un tutor per preparare l’esame
Dal risultato della regressione, possiamo vedere che il coefficiente di regressione per Tutor è 8,34 . Ciò significa che in media uno studente che ha utilizzato un tutor ha ottenuto all’esame un punteggio maggiore di 8,34 punti rispetto a uno studente che non ha utilizzato un tutor, assumendo che la variabile predittore Ore studiate rimanga costante.
Consideriamo ad esempio lo studente A che studia per 10 ore e si avvale di un tutor. Considera anche lo studente B che studia 10 ore e non si avvale di un tutor. Secondo i nostri risultati di regressione, si prevede che lo Studente A abbia un punteggio all’esame superiore di 8,34 punti rispetto allo Studente B.
Il valore p corrispondente è 0,138 , che non è statisticamente significativo a un livello alfa di 0,05.
Questo ci dice che la variazione media dei punteggi degli esami per ogni ora aggiuntiva studiata non è statisticamente significativamente diversa da zero .
Per dirla in un altro modo: la variabile predittore Tutor non ha alcuna relazione statisticamente significativa con la variabile di risposta del punteggio dell’esame .
Ciò indica che, sebbene gli studenti che hanno utilizzato un tutor abbiano ottenuto risultati migliori all’esame, questa differenza potrebbe essere dovuta al caso.
Risorse addizionali
Le seguenti esercitazioni forniscono informazioni aggiuntive sulla regressione lineare:
Come interpretare il test F per la significatività complessiva nella regressione
Le cinque ipotesi della regressione lineare multipla
Comprensione del test t nella regressione lineare