Jak wykonać test t dla nachylenia linii regresji w r


Wykonujemy prostą regresję liniową , otrzymując następujące oszacowane równanie regresji:

ŷ = b 0 + b 1 x

Generalnie chcemy wiedzieć, czy współczynnik nachylenia b 1 jest istotny statystycznie.

Aby określić, czy b 1 jest statystycznie istotne, możemy wykonać test t z następującą statystyką testową:

t = b 1 / se(b 1 )

Złoto:

  • se(b 1 ) reprezentuje błąd standardowy b 1 .

Następnie możemy obliczyć wartość p , która odpowiada tej statystyce testowej z n-2 stopniami swobody.

Jeśli wartość p jest mniejsza niż określony próg (np. α = 0,05), wówczas możemy stwierdzić, że współczynnik nachylenia jest niezerowy.

Innymi słowy, istnieje statystycznie istotna zależność pomiędzy zmienną predykcyjną azmienną odpowiedzi w modelu.

Poniższy przykład pokazuje, jak wykonać test t dla nachylenia linii regresji w R.

Przykład: Przeprowadzenie testu t dla nachylenia linii regresji w R

Załóżmy, że mamy następującą ramkę danych w języku R, która zawiera informacje o przepracowanych godzinach i wynikach egzaminów końcowych uzyskanych przez 12 uczniów w klasie:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8),
                 score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82))

#view data frame
df

   hours score
1 1 65
2 1 67
3 2 78
4 2 75
5 3 73
6 4 84
7 5 80
8 5 76
9 5 89
10 6 91
11 6 83
12 8 82

Załóżmy, że chcemy dopasować prosty model regresji liniowej, aby ustalić, czy istnieje statystycznie istotna zależność między przestudiowanymi godzinami a wynikami egzaminów.

Możemy użyć funkcji lm() w R, aby dopasować ten model regresji:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-7,398 -3,926 -1,139 4,972 7,713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 67.7685 3.3757 20.075 2.07e-09 ***
hours 2.7037 0.7456 3.626 0.00464 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.479 on 10 degrees of freedom
Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 
F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641

Z wyników modelu widzimy, że oszacowane równanie regresji ma postać:

Wynik egzaminu = 67,7685 + 2,7037 (godziny)

Aby sprawdzić, czy współczynnik nachylenia jest statystycznie istotny, możemy obliczyć statystykę testu t w następujący sposób:

  • t = b 1 / se(b 1 )
  • t = 2,7037 / 0,7456
  • t = 3,626

Wartość p odpowiadająca tej statystyce testu t jest wyświetlana w kolumnie o nazwie Pr(> |t|) na wyjściu.

Wartość p wynosi 0,00464 .

Ponieważ ta wartość p jest mniejsza niż 0,05, dochodzimy do wniosku, że współczynnik nachylenia jest statystycznie istotny.

Innymi słowy, istnieje statystycznie istotna zależność pomiędzy liczbą przepracowanych godzin a końcową oceną, jaką student uzyskał z egzaminu.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:

Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jak interpretować wynik regresji w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *