Що таке статистика преса?
У статистиці ми використовуємо регресійні моделі з двох причин:
(1) Поясніть зв’язок між однією або декількома пояснювальними змінними та змінною відповіді .
(2) Передбачте значення змінної відповіді на основі значень однієї або кількох пояснювальних змінних.
Коли наша мета полягає в тому, щоб (2) передбачити значення змінної відповіді, ми хочемо переконатися, що ми використовуємо найкращу можливу регресійну модель для цього.
Одним із показників, який ми можемо використовувати для пошуку регресійної моделі, яка дасть найкращі прогнози на основі нових даних, є статистика PRESS , яка розшифровується як « прогнозована залишкова сума квадратів ».
Він розраховується таким чином:
ПРЕС = Σ(e i / (1-h ii )) 2
золото:
- e i : i- й залишок.
- h ii : міра впливу (також називається «важелем») i-го спостереження на відповідність моделі.
Враховуючи множинні регресійні моделі, ту, що має найнижчий PRESS, слід вибрати як ту, яка буде найкращою для нового набору даних.
У наступному прикладі показано, як обчислити статистику PRESS для трьох різних моделей лінійної регресії в R.
Приклад: Розрахунок статистики PRESS
Припустімо, що ми маємо набір даних із трьома пояснювальними змінними, x1 , x2 і x3 , і змінною відповіді y:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
Наступний код показує, як підібрати три різні регресійні моделі до цього набору даних за допомогою функції lm() :
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
Наступний код показує, як обчислити статистику PRESS для кожної моделі.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
Виявляється, модель з найнижчою статистикою PRESS — це модель 2 зі статистикою PRESS 519,6435 . Таким чином, ми вибрали б цю модель як найкращу для створення прогнозів на новому наборі даних.
Додаткові ресурси
Вступ до простої лінійної регресії
Що таке економна модель?
Що таке хороше значення R-квадрат?