Basin istatistiği nedir?
İstatistiklerderegresyon modellerini iki nedenden dolayı kullanırız:
(1) Bir veya daha fazla açıklayıcı değişken ile bir yanıt değişkeni arasındaki ilişkiyi açıklayın .
(2) Bir veya daha fazla açıklayıcı değişkenin değerlerine dayanarak bir yanıt değişkeninin değerlerini tahmin edin .
Amacımız (2) bir yanıt değişkeninin değerlerini tahmin etmek olduğunda, bunu yapmak için mümkün olan en iyi regresyon modelini kullandığımızdan emin olmak isteriz.
Yeni veriler üzerinde en iyi tahminleri yapacak regresyon modelini bulmak için kullanabileceğimiz bir ölçüm, ” tahmin edilen artık kareler toplamı ” anlamına gelen PRESS istatistiğidir .
Aşağıdaki şekilde hesaplanır:
BASIN = Σ(e i / (1-h ii )) 2
Altın:
- e i : i’inci kalıntı.
- h ii : i’inci gözlemin modelin uyumu üzerindeki etkisinin (“kaldıraç” olarak da bilinir) ölçüsü.
Çoklu regresyon modelleri göz önüne alındığında, en düşük PRESS’e sahip olan, yeni bir veri seti üzerinde en iyi performansı gösterecek olan olarak seçilmelidir.
Aşağıdaki örnek, R’deki üç farklı doğrusal regresyon modeli için PRESS istatistiğinin nasıl hesaplanacağını gösterir.
Örnek: PRESS istatistiğinin hesaplanması
Üç açıklayıcı değişken ( x1 , x2 ve x3 ) ve bir yanıt değişkeni y’den oluşan bir veri setimiz olduğunu varsayalım:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
Aşağıdaki kod, lm() işlevini kullanarak üç farklı regresyon modelinin bu veri kümesine nasıl sığdırılacağını gösterir:
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
Aşağıdaki kod, her model için PRESS istatistiğinin nasıl hesaplanacağını gösterir.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
PRESS istatistiği en düşük olan modelin ise 519.6435 PRESS istatistiğiyle Model 2 olduğu ortaya çıktı. Bu nedenle, yeni bir veri seti üzerinde tahmin yapmak için en uygun modeli bu modeli seçeceğiz.
Ek kaynaklar
Basit Doğrusal Regresyona Giriş
Cimri bir model nedir?
İyi bir R-kare değeri nedir?