Qual è la statistica press?


In statistica, adattiamo i modelli di regressione per due ragioni:

(1) Spiegare la relazione tra una o più variabili esplicative e una variabile di risposta .

(2) Prevedere i valori di una variabile di risposta in base ai valori di una o più variabili esplicative.

Quando il nostro obiettivo è (2) prevedere i valori di una variabile di risposta, vogliamo assicurarci di utilizzare il miglior modello di regressione possibile per farlo.

Una metrica che possiamo utilizzare per trovare il modello di regressione che farà le migliori previsioni sui nuovi dati è la statistica PRESS , che sta per “ somma residua prevista dei quadrati ”.

Viene calcolato come segue:

PRESSIONE = Σ(e i / (1-h ii )) 2

Oro:

  • e i : L’iesimo residuo .
  • h ii : una misura dell’influenza (chiamata anche “leva”) dell’i -esima osservazione sull’adattamento del modello.

Dati i modelli di regressione multipli, quello con il PRESS più basso dovrebbe essere selezionato come quello che offrirà le migliori prestazioni su un nuovo set di dati.

L’esempio seguente mostra come calcolare la statistica PRESS per tre diversi modelli di regressione lineare in R.

Esempio: Calcolo della statistica PRESS

Supponiamo di avere un set di dati con tre variabili esplicative, x1 , x2 e x3 , e una variabile di risposta y:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

Il codice seguente mostra come adattare tre diversi modelli di regressione a questo set di dati utilizzando la funzione lm() :

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

Il codice seguente mostra come calcolare la statistica PRESS per ciascun modello.

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

Risulta che il modello con la statistica PRESS più bassa è il Modello 2 con una statistica PRESS di 519.6435 . Pertanto, sceglieremmo questo modello come il più adatto per fare previsioni su un nuovo set di dati.

Risorse addizionali

Introduzione alla regressione lineare semplice
Cos’è un modello parsimonioso?
Qual è un buon valore R quadrato?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *