Come calcolare l'intervallo di confidenza per il coefficiente di regressione in r
In un modello di regressione lineare, un coefficiente di regressione ci dice la variazione media nella variabile di risposta associata ad un aumento di un’unità della variabile predittrice.
Possiamo utilizzare la seguente formula per calcolare un intervallo di confidenza per un coefficiente di regressione:
Intervallo di confidenza per β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
Oro:
- b 1 = coefficiente di regressione mostrato nella tabella di regressione
- t 1-∝/2, n-2 = Il valore t critico per il livello di confidenza 1-∝ con n-2 gradi di libertà dove n è il numero totale di osservazioni nel nostro set di dati
- se(b 1 ) = L’errore standard di b 1 mostrato nella tabella di regressione
L’esempio seguente mostra come calcolare nella pratica un intervallo di confidenza per una pendenza di regressione.
Esempio: intervallo di confidenza per il coefficiente di regressione in R
Supponiamo di voler adattare un semplice modello di regressione lineare utilizzando le ore di studio come variabile predittiva e i punteggi degli esami come variabile di risposta per 15 studenti in una particolare classe:
Possiamo usare la funzione lm() per adattare questo semplice modello di regressione lineare in R:
#create data frame df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14), score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89)) #fit linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -5,140 -3,219 -1,193 2,816 5,772 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 65,334 2,106 31,023 1.41e-13 *** hours 1.982 0.248 7.995 2.25e-06 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.641 on 13 degrees of freedom Multiple R-squared: 0.831, Adjusted R-squared: 0.818 F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06
Utilizzando le stime dei coefficienti nel risultato, possiamo scrivere il modello di regressione lineare semplice adattato come segue:
Punteggio = 65.334 + 1.982*(Ore studiate)
Si noti che il coefficiente di regressione per le ore è 1.982 .
Questo ci dice che ogni ora aggiuntiva di studio trascorsa è associata a un aumento medio di 1.982 nel punteggio dell’esame.
Possiamo utilizzare la funzione confint() per calcolare un intervallo di confidenza al 95% per il coefficiente di regressione:
#calculate confidence interval for regression coefficient for 'hours' confint(fit, ' hours ', level= 0.95 ) 2.5% 97.5% hours 1.446682 2.518068
L’intervallo di confidenza al 95% per il coefficiente di regressione è [1,446, 2,518] .
Poiché questo intervallo di confidenza non contiene il valore 0, possiamo concludere che esiste un’associazione statisticamente significativa tra ore studiate e voto dell’esame.
Possiamo anche confermare che ciò è corretto calcolando manualmente l’intervallo di confidenza al 95% per il coefficiente di regressione:
- IC al 95% per β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
- IC al 95% per β 1 : 1,982 ± t 0,975, 15-2 * 0,248
- IC al 95% per β1 : 1,982 ± 2,1604 * 0,248
- IC al 95% per β 1 : [1,446, 2,518]
L’intervallo di confidenza al 95% per il coefficiente di regressione è [1,446, 2,518] .
Nota n. 1 : abbiamo utilizzato il calcolatore della distribuzione t inversa per trovare il valore t critico che corrisponde a un livello di confidenza del 95% con 13 gradi di libertà.
Nota n.2 : per calcolare un intervallo di confidenza con un livello di confidenza diverso, è sufficiente modificare il valore dell’argomento livello nella funzione confint() .
Risorse addizionali
Le esercitazioni seguenti forniscono informazioni aggiuntive sulla regressione lineare in R:
Come interpretare l’output della regressione in R
Come eseguire una regressione lineare semplice in R
Come eseguire la regressione lineare multipla in R
Come eseguire la regressione logistica in R