Come interpretare l'intercetta in un modello di regressione: con esempi
L’ intercetta (a volte chiamata “costante”) in un modello di regressione rappresenta il valore medio della variabile di risposta quando tutte le variabili predittive nel modello sono uguali a zero.
Questo tutorial spiega come interpretare il valore originale nei modelli di regressione lineare semplice e di regressione lineare multipla.
Interpretazione dell’intersezione nella regressione lineare semplice
Un modello di regressione lineare semplice assume la forma seguente:
ŷ = β 0 + β 1 (x)
Oro:
- ŷ: il valore previsto per la variabile di risposta
- β 0 : Il valore medio della variabile di risposta quando x = 0
- β 1 : La variazione media nella variabile di risposta per un aumento di un’unità in x
- x: il valore della variabile predittiva
In alcuni casi ha senso interpretare il valore dell’intercetta in un semplice modello di regressione lineare, ma non sempre. I seguenti esempi lo illustrano.
Esempio 1: L’intercettazione ha senso da interpretare
Supponiamo di voler adattare un semplice modello di regressione lineare utilizzando le ore studiate come variabile predittiva e i punteggi degli esami come variabile di risposta.
Raccogliamo questi dati per 50 studenti in un determinato corso universitario e adattiamo il seguente modello di regressione:
Punteggio esame = 65,4 + 2,67 (ore)
Il valore del termine originale in questo modello è 65,4 . Ciò significa che il punteggio medio dell’esame è 65,4 quando il numero di ore studiate è zero.
Questo ha senso da interpretare poiché è plausibile che uno studente studi per zero ore per un esame.
Esempio 2: l’intercettazione non ha senso da interpretare
Supponiamo di voler adattare un modello di regressione lineare semplice utilizzando il peso (in libbre) come variabile predittiva e l’altezza (in pollici) come variabile di risposta.
Raccogliamo questi dati per 50 individui e applichiamo il seguente modello di regressione:
Altezza = 22,3 + 0,28 (libbre)
Il valore del termine originale in questo modello è 22,3 . Ciò significherebbe che l’altezza media di una persona è di 22,3 pollici quando il suo peso è pari a zero.
Questo non ha senso da interpretare poiché non è possibile per una persona pesare zero chili.
Tuttavia, dobbiamo ancora mantenere il termine originale nel modello in modo da poterlo utilizzare per fare previsioni. L’intercetta semplicemente non ha un’interpretazione significativa per questo modello.
Interpretazione dell’intercetta nella regressione lineare multipla
Un modello di regressione lineare multipla assume la forma seguente:
ŷ = β 0 + β 1 (x 1 ) + β 2 (x 2 ) + β 3 (x 3 ) + … + β K (x K )
Oro:
- ŷ: il valore previsto per la variabile di risposta
- β 0 : il valore medio della variabile di risposta quando tutte le variabili predittive sono pari a zero
- β j : variazione media nella variabile di risposta per un aumento di un’unità della j- esima variabile predittrice, assumendo che tutte le altre variabili predittive rimangano costanti.
- x j : il valore della j -esima variabile predittiva
Analogamente alla regressione lineare semplice, a volte ha senso interpretare il valore dell’intercetta in un modello di regressione lineare multipla, ma non sempre. I seguenti esempi lo illustrano.
Esempio 1: L’intercettazione ha senso da interpretare
Supponiamo di voler adattare un modello di regressione lineare multipla utilizzando le ore di studio e gli esami preparatori presi come variabili predittive e i punteggi degli esami come variabile di risposta.
Raccogliamo questi dati per 50 studenti in un determinato corso universitario e adattiamo il seguente modello di regressione:
Punteggio esame = 58,4 + 2,23 (ore) + 1,34 (numero esami preparatori)
Il valore del termine originale in questo modello è 58,4 . Ciò significa che il punteggio medio dell’esame è 58,4 quando il numero di ore studiate e il numero di esami preparatori sostenuti sono entrambi pari a zero.
Questo ha senso da interpretare poiché è plausibile che uno studente studi per zero ore e non sostenga alcun esame preparatorio prima dell’esame stesso.
Esempio 2: l’intercettazione non ha senso da interpretare
Supponiamo di voler adattare un modello di regressione lineare multipla utilizzando la metratura e il numero di camere da letto come variabili predittive e il prezzo di vendita come variabile di risposta.
Raccogliamo questi dati per 100 case in una determinata città e applichiamo il seguente modello di regressione:
Prezzo = 87.244 + 3,44 (piedi quadrati) + 843,45 (numero di camere da letto)
Il valore del termine originale in questo modello è 87.244 . Ciò significherebbe che il prezzo medio di vendita di una casa è di $ 87.244 quando la metratura e il numero di camere da letto di una casa sono entrambi uguali a zero.
Ciò non ha senso da interpretare poiché non è possibile che una casa abbia zero metratura e zero camere da letto.
Tuttavia, dobbiamo ancora mantenere il termine originale nel modello per poterlo utilizzare per fare previsioni. L’intercetta semplicemente non ha un’interpretazione significativa per questo modello.
Risorse addizionali
Introduzione alla regressione lineare semplice
Introduzione alla regressione lineare multipla
Come interpretare i coefficienti di regressione parziale