Як виконати t-тест для нахилу лінії регресії в r


Ми виконуємо просту лінійну регресію , і в кінцевому підсумку отримуємо наступне оцінюване рівняння регресії:

ŷ = b 0 + b 1 x

Зазвичай ми хочемо знати, чи є коефіцієнт нахилу b 1 статистично значущим.

Щоб визначити, чи b 1 є статистично значущим, ми можемо виконати t-критерій з такою статистикою тесту:

t = b 1 / se(b 1 )

золото:

  • se(b 1 ) представляє стандартну помилку b 1 .

Потім ми можемо обчислити p-значення , яке відповідає цій тестовій статистиці з n-2 ступенями свободи.

Якщо p-значення менше певного порогового значення (наприклад, α = 0,05), тоді можна зробити висновок, що коефіцієнт нахилу відмінний від нуля.

Іншими словами, існує статистично значущий зв’язок між змінною предиктора та змінною відповіді в моделі.

У наступному прикладі показано, як виконати t-тест для нахилу лінії регресії в R.

Приклад: виконання t-тесту для нахилу лінії регресії в R

Припустімо, що ми маємо такий фрейм даних у R, який містить інформацію про вивчені години та результати підсумкового іспиту, отримані 12 студентами в класі:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8),
                 score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82))

#view data frame
df

   hours score
1 1 65
2 1 67
3 2 78
4 2 75
5 3 73
6 4 84
7 5 80
8 5 76
9 5 89
10 6 91
11 6 83
12 8 82

Припустімо, ми хочемо підібрати просту модель лінійної регресії, щоб визначити, чи існує статистично значущий зв’язок між годинами навчання та результатами іспиту.

Ми можемо використовувати функцію lm() у R, щоб відповідати цій моделі регресії:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-7,398 -3,926 -1,139 4,972 7,713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 67.7685 3.3757 20.075 2.07e-09 ***
hours 2.7037 0.7456 3.626 0.00464 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.479 on 10 degrees of freedom
Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 
F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641

З результатів моделі ми бачимо, що оцінене рівняння регресії таке:

Оцінка за іспит = 67,7685 + 2,7037 (годин)

Щоб перевірити, чи коефіцієнт нахилу є статистично значущим, ми можемо розрахувати статистику t-критерію наступним чином:

  • t = b 1 / se(b 1 )
  • t = 2,7037 / 0,7456
  • t = 3,626

Значення p, яке відповідає цій t-тестовій статистиці, відображається у стовпці під назвою Pr(> |t|) у вихідних даних.

P-значення виявляється рівним 0,00464 .

Оскільки це p-значення менше 0,05, ми робимо висновок, що коефіцієнт нахилу є статистично значущим.

Іншими словами, існує статистично значущий зв’язок між кількістю вивчених годин і підсумковою оцінкою, яку студент отримав на іспиті.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в R:

Як виконати просту лінійну регресію в R
Як виконати множинну лінійну регресію в R
Як інтерпретувати результат регресії в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *