Was ist die press-statistik?

Von Dr. Benjamin Anderson Juli 27, 2023 Führung Keine Kommentare

In der Statistik passen wirRegressionsmodelle aus zwei Gründen an:

(1) Erklären Sie die Beziehung zwischen einer oder mehreren erklärenden Variablen und einer Antwortvariablen .

(2) Sagen Sie die Werte einer Antwortvariablen basierend auf den Werten einer oder mehrerer erklärender Variablen voraus.

Wenn unser Ziel darin besteht , (2) die Werte einer Antwortvariablen vorherzusagen , möchten wir sicherstellen, dass wir dafür das bestmögliche Regressionsmodell verwenden.

Eine Metrik, die wir verwenden können, um das Regressionsmodell zu finden, das die besten Vorhersagen zu neuen Daten macht, ist die PRESS-Statistik , die für „ vorhergesagte Restquadratsumme “ steht.

Es wird wie folgt berechnet:

PRESS = Σ(e _i / (1-h _ii )) ²

Gold:

e _i : Der i- ^te Rest.
h _ii : Ein Maß für den Einfluss (auch „Hebelwirkung“ genannt) der ^i-ten Beobachtung auf die Anpassung des Modells.

Bei mehreren Regressionsmodellen sollte dasjenige mit dem niedrigsten PRESS als dasjenige ausgewählt werden, das bei einem neuen Datensatz die beste Leistung erbringt.

Das folgende Beispiel zeigt, wie die PRESS-Statistik für drei verschiedene lineare Regressionsmodelle in R berechnet wird.

Beispiel: Berechnung der PRESS-Statistik

Angenommen, wir haben einen Datensatz mit drei erklärenden Variablen, _x1 , _x2 und _x3 , und einer Antwortvariablen y:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

Der folgende Code zeigt, wie drei verschiedene Regressionsmodelle mithilfe der Funktion lm() an diesen Datensatz angepasst werden:

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

Der folgende Code zeigt, wie die PRESS-Statistik für jedes Modell berechnet wird.

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

Es stellt sich heraus, dass das Modell mit der niedrigsten PRESS-Statistik Modell 2 mit einer PRESS-Statistik von 519,6435 ist. Daher würden wir dieses Modell als am besten geeignet wählen, um Vorhersagen für einen neuen Datensatz zu treffen.

Zusätzliche Ressourcen

Einführung in die einfache lineare Regression
Was ist ein sparsames Modell?
Was ist ein guter R-Quadrat-Wert?

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel: Berechnung der PRESS-Statistik

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen