Come eseguire un test t per la pendenza della retta di regressione in r
Eseguiamo una semplice regressione lineare , otteniamo la seguente equazione di regressione stimata:
ŷ = b 0 + b 1 x
Generalmente vogliamo sapere se il coefficiente di pendenza, b 1 , è statisticamente significativo.
Per determinare se b 1 è statisticamente significativo, possiamo eseguire un t-test con la seguente statistica test:
t = b1 / se( b1 )
Oro:
- se(b 1 ) rappresenta l’errore standard di b 1 .
Possiamo quindi calcolare il valore p che corrisponde a questa statistica del test con n-2 gradi di libertà.
Se il valore p è inferiore ad una certa soglia (ad esempio α = 0,05), allora possiamo concludere che il coefficiente di pendenza è diverso da zero.
In altre parole, esiste una relazione statisticamente significativa tra la variabile predittore e la variabile risposta nel modello.
L’esempio seguente mostra come eseguire un test t per la pendenza di una retta di regressione in R.
Esempio: esecuzione di un test t per la pendenza della retta di regressione in R
Supponiamo di avere il seguente data frame in R che contiene informazioni sulle ore studiate e sui punteggi degli esami finali ottenuti da 12 studenti in una classe:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8), score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82)) #view data frame df hours score 1 1 65 2 1 67 3 2 78 4 2 75 5 3 73 6 4 84 7 5 80 8 5 76 9 5 89 10 6 91 11 6 83 12 8 82
Supponiamo di voler adattare un semplice modello di regressione lineare per determinare se esiste una relazione statisticamente significativa tra le ore studiate e i punteggi degli esami.
Possiamo usare la funzione lm() in R per adattare questo modello di regressione:
#fit simple linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -7,398 -3,926 -1,139 4,972 7,713 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.7685 3.3757 20.075 2.07e-09 *** hours 2.7037 0.7456 3.626 0.00464 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.479 on 10 degrees of freedom Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641
Dai risultati del modello, possiamo vedere che l’equazione di regressione stimata è:
Punteggio esame = 67,7685 + 2,7037 (ore)
Per verificare se il coefficiente di pendenza è statisticamente significativo, possiamo calcolare la statistica t-test come segue:
- t = b1 / se( b1 )
- t = 2,7037/0,7456
- t = 3.626
Il valore p che corrisponde a questa statistica del test t viene visualizzato nella colonna denominata Pr(> |t|) nell’output.
Il valore p risulta essere 0,00464 .
Poiché questo valore p è inferiore a 0,05, concludiamo che il coefficiente di pendenza è statisticamente significativo.
In altre parole, esiste una relazione statisticamente significativa tra il numero di ore studiate e il voto finale ottenuto dallo studente all’esame.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in R:
Come eseguire una regressione lineare semplice in R
Come eseguire la regressione lineare multipla in R
Come interpretare l’output della regressione in R