Press 통계란 무엇입니까?


통계에서는 다음 두 가지 이유로 회귀 모델을 적합시킵니다.

(1) 하나 이상의 설명변수반응변수 사이의 관계를 설명합니다 .

(2) 하나 이상의 설명변수의 값을 기반으로 응답변수의 값을 예측한다 .

우리의 목표가 (2) 응답 변수의 값을 예측하는 것이라면 이를 위해 가능한 최상의 회귀 모델을 사용하고 있는지 확인하고 싶습니다.

새로운 데이터에 대해 가장 좋은 예측을 하는 회귀 모델을 찾는 데 사용할 수 있는 측정항목 중 하나는 ” 예상 잔차 제곱합 나타내는 PRESS 통계 입니다.

다음과 같이 계산됩니다.

PRESS = Σ(e i / (1-h ii )) 2

금:

  • e i : i 번째 잔기.
  • h ii : 모델 적합성에 대한 i번째 관측치의 영향(“레버리지”라고도 함) 측정값입니다.

여러 회귀 모델이 주어지면 PRESS가 가장 낮은 모델을 새 데이터 세트에서 가장 잘 수행할 모델로 선택해야 합니다.

다음 예에서는 R에서 세 가지 다른 선형 회귀 모델에 대한 PRESS 통계를 계산하는 방법을 보여줍니다.

예: PRESS 통계 계산

세 개의 설명 변수 x1 , x2 , x3 과 응답 변수 y가 있는 데이터 세트가 있다고 가정합니다.

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

다음 코드는 lm() 함수를 사용하여 이 데이터세트에 세 가지 다른 회귀 모델을 맞추는 방법을 보여줍니다.

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

다음 코드는 각 모델의 PRESS 통계를 계산하는 방법을 보여줍니다.

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

PRESS 통계량이 가장 낮은 모델은 PRESS 통계량이 519.6435 인 모델 2인 것으로 나타났습니다. 따라서 우리는 새로운 데이터 세트에 대한 예측을 수행하는 데 가장 적합한 모델을 선택합니다.

추가 리소스

단순 선형 회귀 소개
절약형 모델이란 무엇입니까?
좋은 R 제곱 값이란 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다