Qual é a estatística da imprensa?
Nas estatísticas, ajustamos modelos de regressão por dois motivos:
(1) Explique a relação entre uma ou mais variáveis explicativas e uma variável de resposta .
(2) Prever os valores de uma variável de resposta com base nos valores de uma ou mais variáveis explicativas.
Quando nosso objetivo é (2) prever os valores de uma variável resposta, queremos garantir que estamos usando o melhor modelo de regressão possível para fazer isso.
Uma métrica que podemos usar para encontrar o modelo de regressão que fará as melhores previsões sobre novos dados é a estatística PRESS , que significa “ soma residual dos quadrados prevista ”.
É calculado da seguinte forma:
PRESSIONE = Σ(e i / (1-h ii )) 2
Ouro:
- e i : O i- ésimo resíduo.
- h ii : Uma medida da influência (também chamada de “alavancagem”) da i-ésima observação no ajuste do modelo.
Dados modelos de regressão múltipla, aquele com o PRESS mais baixo deve ser selecionado como aquele que terá melhor desempenho em um novo conjunto de dados.
O exemplo a seguir mostra como calcular a estatística PRESS para três modelos de regressão linear diferentes em R.
Exemplo: Cálculo da estatística PRESS
Suponha que temos um conjunto de dados com três variáveis explicativas, x1 , x2 e x3 , e uma variável de resposta y:
data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
O código a seguir mostra como ajustar três modelos de regressão diferentes a este conjunto de dados usando a função lm() :
model1 <- lm(y~x1, data=data) model2 <- lm(y~x1+x2, data=data) model3 <- lm(y~x2+x3, data=data)
O código a seguir mostra como calcular a estatística PRESS para cada modelo.
#create custom function to calculate the PRESS statistic PRESS <- function (model) { i <- residuals (model)/(1 - lm. influence (model)$ hat ) sum(i^2) } #calculate PRESS for model 1 PRESS(model1) [1] 590.2197 #calculate PRESS for model 2 PRESS(model2) [1] 519.6435 #calculate PRESS for model 3 PRESS(model3) [1] 537.7503
Acontece que o modelo com a estatística PRESS mais baixa é o Modelo 2 com uma estatística PRESS de 519,6435 . Assim, escolheríamos este modelo como o mais adequado para fazer previsões sobre um novo conjunto de dados.
Recursos adicionais
Introdução à regressão linear simples
O que é um modelo parcimonioso?
O que é um bom valor de R ao quadrado?