Jakie są statystyki press?
W statystyce dopasowujemy modele regresji z dwóch powodów:
(1) Wyjaśnij związek pomiędzy jedną lub większą liczbą zmiennych objaśniających a zmienną odpowiedzi .
(2) Przewiduj wartości zmiennej odpowiedzi na podstawie wartości jednej lub większej liczby zmiennych objaśniających.
Kiedy naszym celem jest (2) przewidzenie wartości zmiennej odpowiedzi, chcemy mieć pewność, że używamy do tego najlepszego możliwego modelu regresji.
Jednym z mierników, których możemy użyć do znalezienia modelu regresji, który zapewni najlepsze przewidywania na podstawie nowych danych, jest statystyka PRESS , która oznacza „ przewidywaną resztę sumy kwadratów ”.
Oblicza się go w następujący sposób:
NACIŚNIJ = Σ(e i / (1-h ii )) 2
Złoto:
- e i : i- ta reszta.
- h ii : Miara wpływu (zwana także „dźwignią”) i -tej obserwacji na dopasowanie modelu.
Biorąc pod uwagę modele regresji wielokrotnej, należy wybrać ten z najniższym PRESS, który będzie działał najlepiej na nowym zestawie danych.
Poniższy przykład pokazuje, jak obliczyć statystykę PRESS dla trzech różnych modeli regresji liniowej w R.
Przykład: Obliczenie statystyki PRESS
Załóżmy, że mamy zbiór danych zawierający trzy zmienne objaśniające x1 , x2 i x3 oraz zmienną odpowiedzi y:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
Poniższy kod pokazuje, jak dopasować trzy różne modele regresji do tego zbioru danych za pomocą funkcji lm() :
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
Poniższy kod pokazuje, jak obliczyć statystykę PRESS dla każdego modelu.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
Okazuje się, że modelem z najniższą statystyką PRESS jest Model 2 ze statystyką PRESS wynoszącą 519,6435 . Dlatego wybralibyśmy ten model jako najlepiej nadający się do przewidywania nowego zbioru danych.
Dodatkowe zasoby
Wprowadzenie do prostej regresji liniowej
Co to jest oszczędny model?
Jaka jest dobra wartość R-kwadrat?