Как выполнить t-тест для наклона линии регрессии в r


Выполнив простую линейную регрессию , мы получили следующее расчетное уравнение регрессии:

ŷ = б 0 + б 1 х

Обычно мы хотим знать, является ли коэффициент наклона b 1 статистически значимым.

Чтобы определить, является ли b 1 статистически значимым, мы можем выполнить t-критерий со следующей статистикой теста:

т = б 1 / se (б 1 )

Золото:

  • se(b 1 ) представляет собой стандартную ошибку b 1 .

Затем мы можем вычислить значение p , которое соответствует этой тестовой статистике с n-2 степенями свободы.

Если значение p меньше определенного порога (например, α = 0,05), то мы можем заключить, что коэффициент наклона отличен от нуля.

Другими словами, существует статистически значимая связь между переменной-предиктором и переменной ответа в модели.

В следующем примере показано, как выполнить t-тест для наклона линии регрессии в R.

Пример. Выполнение t-теста для наклона линии регрессии в R.

Предположим, у нас есть следующий кадр данных в R, который содержит информацию об учебных часах и результатах итоговых экзаменов, полученных 12 учениками в классе:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8),
                 score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82))

#view data frame
df

   hours score
1 1 65
2 1 67
3 2 78
4 2 75
5 3 73
6 4 84
7 5 80
8 5 76
9 5 89
10 6 91
11 6 83
12 8 82

Допустим, мы хотим применить простую модель линейной регрессии, чтобы определить, существует ли статистически значимая связь между учебными часами и оценками на экзаменах.

Мы можем использовать функцию lm() в R, чтобы соответствовать этой модели регрессии:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-7,398 -3,926 -1,139 4,972 7,713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 67.7685 3.3757 20.075 2.07e-09 ***
hours 2.7037 0.7456 3.626 0.00464 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.479 on 10 degrees of freedom
Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 
F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641

Из результатов модели мы видим, что предполагаемое уравнение регрессии имеет вид:

Оценка экзамена = 67,7685 + 2,7037 (часы)

Чтобы проверить, является ли коэффициент наклона статистически значимым, мы можем рассчитать статистику t-критерия следующим образом:

  • т = б 1 / se (б 1 )
  • т = 2,7037/0,7456
  • т = 3,626

Значение p, соответствующее этой статистике t-критерия, отображается в столбце Pr(> |t|) выходных данных.

Значение p оказывается 0,00464 .

Поскольку это значение p меньше 0,05, мы заключаем, что коэффициент наклона статистически значим.

Другими словами, существует статистически значимая связь между количеством учебных часов и итоговой оценкой, полученной студентом на экзамене.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Как интерпретировать результаты регрессии в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *