Press 통계란 무엇입니까?
통계에서는 다음 두 가지 이유로 회귀 모델을 적합시킵니다.
(1) 하나 이상의 설명변수 와 반응변수 사이의 관계를 설명합니다 .
(2) 하나 이상의 설명변수의 값을 기반으로 응답변수의 값을 예측한다 .
우리의 목표가 (2) 응답 변수의 값을 예측하는 것이라면 이를 위해 가능한 최상의 회귀 모델을 사용하고 있는지 확인하고 싶습니다.
새로운 데이터에 대해 가장 좋은 예측을 하는 회귀 모델을 찾는 데 사용할 수 있는 측정항목 중 하나는 ” 예상 잔차 제곱합 ” 을 나타내는 PRESS 통계 입니다.
다음과 같이 계산됩니다.
PRESS = Σ(e i / (1-h ii )) 2
금:
- e i : i 번째 잔기.
- h ii : 모델 적합성에 대한 i번째 관측치의 영향(“레버리지”라고도 함) 측정값입니다.
여러 회귀 모델이 주어지면 PRESS가 가장 낮은 모델을 새 데이터 세트에서 가장 잘 수행할 모델로 선택해야 합니다.
다음 예에서는 R에서 세 가지 다른 선형 회귀 모델에 대한 PRESS 통계를 계산하는 방법을 보여줍니다.
예: PRESS 통계 계산
세 개의 설명 변수 x1 , x2 , x3 과 응답 변수 y가 있는 데이터 세트가 있다고 가정합니다.
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
다음 코드는 lm() 함수를 사용하여 이 데이터세트에 세 가지 다른 회귀 모델을 맞추는 방법을 보여줍니다.
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
다음 코드는 각 모델의 PRESS 통계를 계산하는 방법을 보여줍니다.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
PRESS 통계량이 가장 낮은 모델은 PRESS 통계량이 519.6435 인 모델 2인 것으로 나타났습니다. 따라서 우리는 새로운 데이터 세트에 대한 예측을 수행하는 데 가장 적합한 모델을 선택합니다.