Какова статистика пресс?


В статистике мы используем регрессионные модели по двум причинам:

(1) Объясните взаимосвязь между одной или несколькими объясняющими переменными и переменной отклика .

(2) Прогнозировать значения переменной ответа на основе значений одной или нескольких независимых переменных.

Когда наша цель состоит в том, чтобы (2) спрогнозировать значения переменной ответа, мы хотим убедиться, что для этого используем наилучшую возможную модель регрессии.

Одной метрикой, которую мы можем использовать для поиска модели регрессии, которая даст наилучшие прогнозы на основе новых данных, является статистика PRESS , которая означает « прогнозируемую остаточную сумму квадратов ».

Он рассчитывается следующим образом:

ПРЕСС = Σ(е я / (1-h ii )) 2

Золото:

  • e i : i- й остаток.
  • h ii : мера влияния (также называемого «левериджем») i-го наблюдения на соответствие модели.

Учитывая несколько моделей регрессии, следует выбрать модель с наименьшим значением PRESS, поскольку она будет лучше всего работать на новом наборе данных.

В следующем примере показано, как рассчитать статистику PRESS для трех различных моделей линейной регрессии в R.

Пример: расчет статистики PRESS

Предположим, у нас есть набор данных с тремя объясняющими переменными: x1 , x2 и x3 , а также переменной отклика y:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

Следующий код показывает, как подогнать к этому набору данных три разные модели регрессии с помощью функции lm() :

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

Следующий код показывает, как рассчитать статистику PRESS для каждой модели.

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

Оказывается, что модель с самой низкой статистикой PRESS — это Модель 2 со статистикой PRESS 519,6435 . Таким образом, мы бы выбрали эту модель как наиболее подходящую для прогнозирования нового набора данных.

Дополнительные ресурсы

Введение в простую линейную регрессию
Что такое экономичная модель?
Что такое хорошее значение R-квадрата?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *