Qual é a estatística da imprensa?


Nas estatísticas, ajustamos modelos de regressão por dois motivos:

(1) Explique a relação entre uma ou mais variáveis explicativas e uma variável de resposta .

(2) Prever os valores de uma variável de resposta com base nos valores de uma ou mais variáveis explicativas.

Quando nosso objetivo é (2) prever os valores de uma variável resposta, queremos garantir que estamos usando o melhor modelo de regressão possível para fazer isso.

Uma métrica que podemos usar para encontrar o modelo de regressão que fará as melhores previsões sobre novos dados é a estatística PRESS , que significa “ soma residual dos quadrados prevista ”.

É calculado da seguinte forma:

PRESSIONE = Σ(e i / (1-h ii )) 2

Ouro:

  • e i : O i- ésimo resíduo.
  • h ii : Uma medida da influência (também chamada de “alavancagem”) da i-ésima observação no ajuste do modelo.

Dados modelos de regressão múltipla, aquele com o PRESS mais baixo deve ser selecionado como aquele que terá melhor desempenho em um novo conjunto de dados.

O exemplo a seguir mostra como calcular a estatística PRESS para três modelos de regressão linear diferentes em R.

Exemplo: Cálculo da estatística PRESS

Suponha que temos um conjunto de dados com três variáveis explicativas, x1 , x2 e x3 , e uma variável de resposta y:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

O código a seguir mostra como ajustar três modelos de regressão diferentes a este conjunto de dados usando a função lm() :

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

O código a seguir mostra como calcular a estatística PRESS para cada modelo.

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

Acontece que o modelo com a estatística PRESS mais baixa é o Modelo 2 com uma estatística PRESS de 519,6435 . Assim, escolheríamos este modelo como o mais adequado para fazer previsões sobre um novo conjunto de dados.

Recursos adicionais

Introdução à regressão linear simples
O que é um modelo parcimonioso?
O que é um bom valor de R ao quadrado?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *