Compreendendo o erro padrão da regressão


Quando ajustamos um modelo de regressão a um conjunto de dados, muitas vezes estamos interessados em saber até que ponto o modelo de regressão “se ajusta” ao conjunto de dados. Duas métricas comumente usadas para medir a qualidade do ajuste incluem o R ao quadrado ( R2 ) e o erro padrão de regressão , muitas vezes denotado por S.

Este tutorial explica como interpretar o erro padrão da regressão (S) e também por que ele pode fornecer informações mais úteis que R 2 .

Erro padrão versus R-quadrado na regressão

Suponha que temos um conjunto de dados simples que mostra quantas horas 12 alunos estudaram por dia durante um mês antes de um exame importante, bem como a pontuação no exame:

Se ajustarmos um modelo de regressão linear simples a este conjunto de dados no Excel, receberemos o seguinte resultado:

R ao quadrado é a proporção da variância na variável resposta que pode ser explicada pela variável preditora. Nesse caso, 65,76% da variação nas notas dos exames pode ser explicada pela quantidade de horas de estudo.

O erro padrão da regressão é a distância média entre os valores observados e a linha de regressão. Neste caso, os valores observados desviam-se em média 4,89 unidades da reta de regressão.

Se traçarmos os pontos de dados reais com a linha de regressão, podemos ver isso mais claramente:

Observe que algumas observações ficam muito próximas da linha de regressão, enquanto outras não. Mas, em média, os valores observados desviam-se da linha de regressão em 4,19 unidades .

O erro padrão da regressão é particularmente útil porque pode ser usado para avaliar a precisão das previsões. Aproximadamente 95% da observação deve estar dentro de +/- dois erros padrão da regressão, o que é uma rápida aproximação de um intervalo de previsão de 95%.

Se quisermos fazer previsões usando o modelo de regressão, o erro padrão da regressão pode ser uma medida mais útil para saber do que o R-quadrado, porque nos dá uma ideia de quão precisas são as nossas previsões em termos de unidades.

Para ilustrar por que o erro padrão da regressão pode ser uma medida mais útil para avaliar o “ajuste” de um modelo, vamos considerar outro exemplo de conjunto de dados que mostra quantas horas 12 alunos estudaram por dia durante um mês antes de um exame importante, bem como o resultado do exame:

Observe que este é exatamente o mesmo conjunto de dados de antes, exceto que todos os valores s são divididos pela metade . Assim, os alunos deste conjunto de dados estudaram exatamente metade do tempo que os alunos do conjunto de dados anterior e receberam exatamente metade da nota do exame.

Se ajustarmos um modelo de regressão linear simples a este conjunto de dados no Excel, receberemos o seguinte resultado:

Observe que o R ao quadrado de 65,76% é exatamente igual ao do exemplo anterior.

No entanto, o erro padrão da regressão é 2,095 , que é exatamente metade do erro padrão da regressão do exemplo anterior.

Se traçarmos os pontos de dados reais com a linha de regressão, podemos ver isso mais claramente:

Observe como as observações estão agrupadas muito mais estreitamente em torno da linha de regressão. Em média, os valores observados estão localizados a 2.095 unidades da reta de regressão.

Portanto, embora ambos os modelos de regressão tenham um R ao quadrado de 65,76% , sabemos que o segundo modelo forneceria previsões mais precisas porque tem um erro padrão de regressão mais baixo.

Os benefícios de usar o erro padrão

O erro padrão da regressão (S) é muitas vezes mais útil de saber do que o R quadrado do modelo porque nos dá as unidades reais. Se quisermos usar um modelo de regressão para produzir previsões, S pode facilmente nos dizer se um modelo é preciso o suficiente para ser usado para fins de previsão.

Por exemplo, suponha que queiramos produzir um intervalo de previsão de 95% no qual podemos prever as notas dos exames com uma margem de erro de 6 pontos da pontuação real.

Nosso primeiro modelo tem um R ao quadrado de 65,76%, mas isso não nos diz nada sobre a precisão do nosso intervalo de previsão. Felizmente, também sabemos que o primeiro modelo tem um S de 4,19. Isso significa que um intervalo de previsão de 95% teria aproximadamente 2*4,19 = +/- 8,38 unidades de largura, o que é muito amplo para nosso intervalo de previsão.

Nosso segundo modelo também tem um R ao quadrado de 65,76%, mas, novamente, isso não nos diz nada sobre a precisão do nosso intervalo de previsão. Porém, sabemos que o segundo modelo tem um S de 2.095. Isso significa que um intervalo de previsão de 95% teria aproximadamente 2*2,095 = +/- 4,19 unidades de largura, o que é menor que 6 e, portanto, preciso o suficiente para ser usado para produzir intervalos de previsão.

Leitura adicional

Introdução à regressão linear simples
O que é um bom valor de R ao quadrado?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *