Как выполнить t-тест для наклона линии регрессии в r
Выполнив простую линейную регрессию , мы получили следующее расчетное уравнение регрессии:
ŷ = б 0 + б 1 х
Обычно мы хотим знать, является ли коэффициент наклона b 1 статистически значимым.
Чтобы определить, является ли b 1 статистически значимым, мы можем выполнить t-критерий со следующей статистикой теста:
т = б 1 / se (б 1 )
Золото:
- se(b 1 ) представляет собой стандартную ошибку b 1 .
Затем мы можем вычислить значение p , которое соответствует этой тестовой статистике с n-2 степенями свободы.
Если значение p меньше определенного порога (например, α = 0,05), то мы можем заключить, что коэффициент наклона отличен от нуля.
Другими словами, существует статистически значимая связь между переменной-предиктором и переменной ответа в модели.
В следующем примере показано, как выполнить t-тест для наклона линии регрессии в R.
Пример. Выполнение t-теста для наклона линии регрессии в R.
Предположим, у нас есть следующий кадр данных в R, который содержит информацию об учебных часах и результатах итоговых экзаменов, полученных 12 учениками в классе:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8), score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82)) #view data frame df hours score 1 1 65 2 1 67 3 2 78 4 2 75 5 3 73 6 4 84 7 5 80 8 5 76 9 5 89 10 6 91 11 6 83 12 8 82
Допустим, мы хотим применить простую модель линейной регрессии, чтобы определить, существует ли статистически значимая связь между учебными часами и оценками на экзаменах.
Мы можем использовать функцию lm() в R, чтобы соответствовать этой модели регрессии:
#fit simple linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -7,398 -3,926 -1,139 4,972 7,713 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.7685 3.3757 20.075 2.07e-09 *** hours 2.7037 0.7456 3.626 0.00464 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.479 on 10 degrees of freedom Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641
Из результатов модели мы видим, что предполагаемое уравнение регрессии имеет вид:
Оценка экзамена = 67,7685 + 2,7037 (часы)
Чтобы проверить, является ли коэффициент наклона статистически значимым, мы можем рассчитать статистику t-критерия следующим образом:
- т = б 1 / se (б 1 )
- т = 2,7037/0,7456
- т = 3,626
Значение p, соответствующее этой статистике t-критерия, отображается в столбце Pr(> |t|) выходных данных.
Значение p оказывается 0,00464 .
Поскольку это значение p меньше 0,05, мы заключаем, что коэффициент наклона статистически значим.
Другими словами, существует статистически значимая связь между количеством учебных часов и итоговой оценкой, полученной студентом на экзамене.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:
Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Как интерпретировать результаты регрессии в R