Wat is de press-statistiek?
In de statistieken passen weregressiemodellen om twee redenen:
(1) Leg de relatie uit tussen een of meer verklarende variabelen en een responsvariabele .
(2) Voorspel de waarden van een responsvariabele op basis van de waarden van een of meer verklarende variabelen.
Wanneer het ons doel is om (2) de waarden van een responsvariabele te voorspellen , willen we ervoor zorgen dat we daarvoor het best mogelijke regressiemodel gebruiken.
Eén maatstaf die we kunnen gebruiken om het regressiemodel te vinden dat de beste voorspellingen op basis van nieuwe gegevens zal doen, is de PRESS-statistiek , die staat voor ‚ voorspelde resterende som van kwadraten ‚.
Het wordt als volgt berekend:
DRUK = Σ(e i / (1-h ii )) 2
Goud:
- e i : het i -de residu.
- h ii : Een maatstaf voor de invloed (ook wel “leverage” genoemd) van de i- de observatie op de fit van het model.
Gegeven meerdere regressiemodellen moet het model met de laagste PRESS worden geselecteerd als het model dat het beste presteert op een nieuwe dataset.
Het volgende voorbeeld laat zien hoe u de PRESS-statistiek voor drie verschillende lineaire regressiemodellen in R kunt berekenen.
Voorbeeld: Berekening van de PRESS-statistiek
Stel dat we een gegevensset hebben met drie verklarende variabelen, x1 , x2 en x3 , en een responsvariabele y:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
De volgende code laat zien hoe u drie verschillende regressiemodellen aan deze gegevensset kunt aanpassen met behulp van de functie lm() :
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
De volgende code laat zien hoe u de PRESS-statistiek voor elk model kunt berekenen.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
Het blijkt dat het model met de laagste PRESS-statistiek Model 2 is met een PRESS-statistiek van 519,6435 . We zouden dit model dus kiezen als het meest geschikt voor het maken van voorspellingen op basis van een nieuwe dataset.
Aanvullende bronnen
Inleiding tot eenvoudige lineaire regressie
Wat is een spaarzaam model?
Wat is een goede R-kwadraatwaarde?