Come calcolare un intervallo di confidenza per un'intercetta di regressione


La regressione lineare semplice viene utilizzata per quantificare la relazione tra una variabile predittore e una variabile di risposta.

Questo metodo trova la riga che meglio “corrisponde” a un insieme di dati e assume la forma seguente:

ŷ = b 0 + b 1 x

Oro:

  • ŷ : il valore di risposta stimato
  • b 0 : L’origine della retta di regressione
  • b 1 : La pendenza della retta di regressione
  • x : il valore della variabile predittiva

Siamo spesso interessati al valore di b 1 , che ci dice la variazione media nella variabile di risposta associata ad un aumento di un’unità nella variabile predittrice.

Tuttavia, in rare circostanze siamo interessati anche al valore di b0 , che ci dice il valore medio della variabile di risposta quando la variabile predittrice è zero.

Possiamo usare la seguente formula per calcolare un intervallo di confidenza per il valore di β 0 , la vera costante della popolazione:

Intervallo di confidenza per β 0 : b 0 ± t α/2, n-2 * se(b 0 )

L’esempio seguente mostra come calcolare nella pratica un intervallo di confidenza per un’intercetta.

Esempio: intervallo di confidenza per l’intercetta di regressione

Supponiamo di voler adattare un semplice modello di regressione lineare utilizzando le ore studiate come variabile predittiva e i punteggi degli esami come variabile di risposta per 15 studenti in una particolare classe:

Il codice seguente mostra come adattare questo semplice modello di regressione lineare in R:

 #create data frame
df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-5,140 -3,219 -1,193 2,816 5,772 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 65,334 2,106 31,023 1.41e-13 ***
hours 1.982 0.248 7.995 2.25e-06 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.641 on 13 degrees of freedom
Multiple R-squared: 0.831, Adjusted R-squared: 0.818 
F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06

Utilizzando le stime dei coefficienti nel risultato, possiamo scrivere il modello di regressione lineare semplice adattato come segue:

Punteggio = 65.334 + 1.982*(Ore studiate)

Il valore dell’intercetta è 65.334. Questo ci dice che il punteggio medio stimato dell’esame per uno studente che studia per zero ore è 65.334 .

Possiamo utilizzare la seguente formula per calcolare un intervallo di confidenza al 95% per l’intercetta:

  • IC al 95% per β 0 : b 0 ± t α/2, n-2 * se(b 0 )
  • IC al 95% per β 0 : 65,334 ± t 0,05/2,15-2 * 2,106
  • IC al 95% per β 0 : 65,334 ± 2,1604 * 2,106
  • IC al 95% per β 0 : [60,78, 69,88]

Interpretiamo questo nel senso che siamo sicuri al 95% che il punteggio medio effettivo dell’esame degli studenti che studiano per zero ore sia compreso tra 60,78 e 69,88.

Nota : abbiamo utilizzato il calcolatore della distribuzione t inversa per trovare il valore t critico che corrisponde a un livello di confidenza del 95% con 13 gradi di libertà.

Precauzioni per il calcolo di un intervallo di confidenza per un’intercetta di regressione

In pratica, spesso non calcoliamo un intervallo di confidenza per un’intercetta di regressione, perché di solito non ha senso interpretare il valore dell’intercetta in una regressione del modello.

Ad esempio, supponiamo di adattare un modello di regressione che utilizza l’altezza di un giocatore di basket come variabile predittiva e la media dei punti per partita come variabile di risposta.

Non è possibile che un giocatore sia alto zero piedi, quindi non avrebbe senso interpretare l’intercettazione letteralmente in questo modello.

Esistono innumerevoli scenari come questo in cui una variabile predittrice non può assumere il valore zero. Quindi non ha senso interpretare il valore originale del modello o creare un intervallo di confidenza per l’origine.

Ad esempio, considera le seguenti potenziali variabili predittive in un modello:

  • Area di una casa
  • Lunghezza di un’auto
  • Peso di una persona

Ognuna di queste variabili predittive non può assumere il valore zero. Non avrebbe quindi senso calcolare un intervallo di confidenza per l’origine di un modello di regressione in nessuna di queste circostanze.

Risorse addizionali

Le seguenti esercitazioni forniscono informazioni aggiuntive sulla regressione lineare:

Introduzione alla regressione lineare semplice
Introduzione alla regressione lineare multipla
Come leggere e interpretare una tabella di regressione
Come riportare i risultati della regressione

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *