Come eseguire un test t per la pendenza della retta di regressione in r


Eseguiamo una semplice regressione lineare , otteniamo la seguente equazione di regressione stimata:

ŷ = b 0 + b 1 x

Generalmente vogliamo sapere se il coefficiente di pendenza, b 1 , è statisticamente significativo.

Per determinare se b 1 è statisticamente significativo, possiamo eseguire un t-test con la seguente statistica test:

t = b1 / se( b1 )

Oro:

  • se(b 1 ) rappresenta l’errore standard di b 1 .

Possiamo quindi calcolare il valore p che corrisponde a questa statistica del test con n-2 gradi di libertà.

Se il valore p è inferiore ad una certa soglia (ad esempio α = 0,05), allora possiamo concludere che il coefficiente di pendenza è diverso da zero.

In altre parole, esiste una relazione statisticamente significativa tra la variabile predittore e la variabile risposta nel modello.

L’esempio seguente mostra come eseguire un test t per la pendenza di una retta di regressione in R.

Esempio: esecuzione di un test t per la pendenza della retta di regressione in R

Supponiamo di avere il seguente data frame in R che contiene informazioni sulle ore studiate e sui punteggi degli esami finali ottenuti da 12 studenti in una classe:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8),
                 score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82))

#view data frame
df

   hours score
1 1 65
2 1 67
3 2 78
4 2 75
5 3 73
6 4 84
7 5 80
8 5 76
9 5 89
10 6 91
11 6 83
12 8 82

Supponiamo di voler adattare un semplice modello di regressione lineare per determinare se esiste una relazione statisticamente significativa tra le ore studiate e i punteggi degli esami.

Possiamo usare la funzione lm() in R per adattare questo modello di regressione:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-7,398 -3,926 -1,139 4,972 7,713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 67.7685 3.3757 20.075 2.07e-09 ***
hours 2.7037 0.7456 3.626 0.00464 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.479 on 10 degrees of freedom
Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 
F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641

Dai risultati del modello, possiamo vedere che l’equazione di regressione stimata è:

Punteggio esame = 67,7685 + 2,7037 (ore)

Per verificare se il coefficiente di pendenza è statisticamente significativo, possiamo calcolare la statistica t-test come segue:

  • t = b1 / se( b1 )
  • t = 2,7037/0,7456
  • t = 3.626

Il valore p che corrisponde a questa statistica del test t viene visualizzato nella colonna denominata Pr(> |t|) nell’output.

Il valore p risulta essere 0,00464 .

Poiché questo valore p è inferiore a 0,05, concludiamo che il coefficiente di pendenza è statisticamente significativo.

In altre parole, esiste una relazione statisticamente significativa tra il numero di ore studiate e il voto finale ottenuto dallo studente all’esame.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni in R:

Come eseguire una regressione lineare semplice in R
Come eseguire la regressione lineare multipla in R
Come interpretare l’output della regressione in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *