Как интерпретировать pr(>|t|) в выходных данных регрессионной модели в r
Всякий раз, когда вы выполняете линейную регрессию в R, выходные данные вашей модели регрессии будут отображаться в следующем формате:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.0035 5.9091 1.693 0.1513
x1 1.4758 0.5029 2.935 0.0325 *
x2 -0.7834 0.8014 -0.978 0.3732
Столбец Pr(>|t|) представляет значение p, связанное со значением в столбце значений t .
Если значение p ниже определенного уровня значимости (например, α = 0,05), то считается, что переменная-предиктор имеет статистически значимую связь с переменной ответа в модели.
В следующем примере показано, как интерпретировать значения в столбце Pr(>|t|) для заданной модели регрессии.
Пример: Как интерпретировать значения Pr(>|t|)
Предположим, мы хотим подогнать модель множественной линейной регрессии , используя переменные-предикторы x1 и x2 и одну переменную ответа y .
Следующий код показывает, как создать фрейм данных и подогнать к данным модель регрессии:
#create data frame
df <- data. frame (x1=c(1, 3, 3, 4, 4, 5, 6, 6),
x2=c(7, 7, 5, 6, 5, 4, 5, 6),
y=c(8, 8, 9, 9, 13, 14, 17, 14))
#fit multiple linear regression model
model <- lm(y ~ x1 + x2, data=df)
#view model summary
summary(model)
Call:
lm(formula = y ~ x1 + x2, data = df)
Residuals:
1 2 3 4 5 6 7 8
2.0046 -0.9470 -1.5138 -2.2062 1.0104 -0.2488 2.0588 -0.1578
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.0035 5.9091 1.693 0.1513
x1 1.4758 0.5029 2.935 0.0325 *
x2 -0.7834 0.8014 -0.978 0.3732
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.867 on 5 degrees of freedom
Multiple R-squared: 0.7876, Adjusted R-squared: 0.7026
F-statistic: 9.268 on 2 and 5 DF, p-value: 0.0208
Вот как интерпретировать значения в столбце Pr(>|t|):
- Значение p для переменной-предиктора x1 составляет 0,0325 . Поскольку это значение меньше 0,05, существует статистически значимая связь с переменной отклика в модели.
- Значение p для переменной-предиктора x2 составляет 0,3732 . Поскольку это значение не менее 0,05, оно не имеет статистически значимой связи с переменной отклика в модели.
Коды значимости под таблицей коэффициентов сообщают нам, что одна звездочка (*) рядом со значением p 0,0325 означает, что значение p статистически значимо при α = 0,05.
Как на самом деле рассчитывается Pr(>|t|)?
Вот как на самом деле рассчитывается значение Pr(>|t|):
Шаг 1: Рассчитайте значение t
Сначала мы вычисляем значение t по следующей формуле:
- t-значение = Оценка / Стандарт. Ошибка
Например, вот как вычислить значение t для переменной-предиктора x1:
#calculate t-value
1.4758 / .5029
[1] 2.934579
Шаг 2: Рассчитайте значение p
Далее мы вычисляем значение p. Это представляет собой вероятность того, что абсолютное значение распределения t превышает 2,935.
Для расчета этого значения мы можем использовать следующую формулу в R:
- p-значение = 2 * pt (abs (t-значение), остаток df, нижний.хвост = ЛОЖЬ)
Например, вот как вычислить значение p для значения t 2,935 с 5 остаточными степенями свободы:
#calculate p-value
2 * pt( abs (2.935), 5, lower. tail = FALSE )
[1] 0.0324441
Обратите внимание, что это значение p соответствует значению p в выходных данных регрессии выше.
Примечание. Значение остаточных степеней свободы находится в нижней части выходных данных регрессии. В нашем примере получилось 5:
Residual standard error: 1.867 on 5 degrees of freedom
Дополнительные ресурсы
Как выполнить простую линейную регрессию в R
Как выполнить множественную линейную регрессию в R
Как построить график результатов множественной линейной регрессии в R