Was ist die press-statistik?


In der Statistik passen wirRegressionsmodelle aus zwei Gründen an:

(1) Erklären Sie die Beziehung zwischen einer oder mehreren erklärenden Variablen und einer Antwortvariablen .

(2) Sagen Sie die Werte einer Antwortvariablen basierend auf den Werten einer oder mehrerer erklärender Variablen voraus.

Wenn unser Ziel darin besteht , (2) die Werte einer Antwortvariablen vorherzusagen , möchten wir sicherstellen, dass wir dafür das bestmögliche Regressionsmodell verwenden.

Eine Metrik, die wir verwenden können, um das Regressionsmodell zu finden, das die besten Vorhersagen zu neuen Daten macht, ist die PRESS-Statistik , die für „ vorhergesagte Restquadratsumme “ steht.

Es wird wie folgt berechnet:

PRESS = Σ(e i / (1-h ii )) 2

Gold:

  • e i : Der i- te Rest.
  • h ii : Ein Maß für den Einfluss (auch „Hebelwirkung“ genannt) der i-ten Beobachtung auf die Anpassung des Modells.

Bei mehreren Regressionsmodellen sollte dasjenige mit dem niedrigsten PRESS als dasjenige ausgewählt werden, das bei einem neuen Datensatz die beste Leistung erbringt.

Das folgende Beispiel zeigt, wie die PRESS-Statistik für drei verschiedene lineare Regressionsmodelle in R berechnet wird.

Beispiel: Berechnung der PRESS-Statistik

Angenommen, wir haben einen Datensatz mit drei erklärenden Variablen, x1 , x2 und x3 , und einer Antwortvariablen y:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

Der folgende Code zeigt, wie drei verschiedene Regressionsmodelle mithilfe der Funktion lm() an diesen Datensatz angepasst werden:

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

Der folgende Code zeigt, wie die PRESS-Statistik für jedes Modell berechnet wird.

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

Es stellt sich heraus, dass das Modell mit der niedrigsten PRESS-Statistik Modell 2 mit einer PRESS-Statistik von 519,6435 ist. Daher würden wir dieses Modell als am besten geeignet wählen, um Vorhersagen für einen neuen Datensatz zu treffen.

Zusätzliche Ressourcen

Einführung in die einfache lineare Regression
Was ist ein sparsames Modell?
Was ist ein guter R-Quadrat-Wert?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert