Compreendendo o erro padrão da regressão
Quando ajustamos um modelo de regressão a um conjunto de dados, muitas vezes estamos interessados em saber até que ponto o modelo de regressão “se ajusta” ao conjunto de dados. Duas métricas comumente usadas para medir a qualidade do ajuste incluem o R ao quadrado ( R2 ) e o erro padrão de regressão , muitas vezes denotado por S.
Este tutorial explica como interpretar o erro padrão da regressão (S) e também por que ele pode fornecer informações mais úteis que R 2 .
Erro padrão versus R-quadrado na regressão
Suponha que temos um conjunto de dados simples que mostra quantas horas 12 alunos estudaram por dia durante um mês antes de um exame importante, bem como a pontuação no exame:
Se ajustarmos um modelo de regressão linear simples a este conjunto de dados no Excel, receberemos o seguinte resultado:
R ao quadrado é a proporção da variância na variável resposta que pode ser explicada pela variável preditora. Nesse caso, 65,76% da variação nas notas dos exames pode ser explicada pela quantidade de horas de estudo.
O erro padrão da regressão é a distância média entre os valores observados e a linha de regressão. Neste caso, os valores observados desviam-se em média 4,89 unidades da reta de regressão.
Se traçarmos os pontos de dados reais com a linha de regressão, podemos ver isso mais claramente:
Observe que algumas observações ficam muito próximas da linha de regressão, enquanto outras não. Mas, em média, os valores observados desviam-se da linha de regressão em 4,19 unidades .
O erro padrão da regressão é particularmente útil porque pode ser usado para avaliar a precisão das previsões. Aproximadamente 95% da observação deve estar dentro de +/- dois erros padrão da regressão, o que é uma rápida aproximação de um intervalo de previsão de 95%.
Se quisermos fazer previsões usando o modelo de regressão, o erro padrão da regressão pode ser uma medida mais útil para saber do que o R-quadrado, porque nos dá uma ideia de quão precisas são as nossas previsões em termos de unidades.
Para ilustrar por que o erro padrão da regressão pode ser uma medida mais útil para avaliar o “ajuste” de um modelo, vamos considerar outro exemplo de conjunto de dados que mostra quantas horas 12 alunos estudaram por dia durante um mês antes de um exame importante, bem como o resultado do exame:
Observe que este é exatamente o mesmo conjunto de dados de antes, exceto que todos os valores s são divididos pela metade . Assim, os alunos deste conjunto de dados estudaram exatamente metade do tempo que os alunos do conjunto de dados anterior e receberam exatamente metade da nota do exame.
Se ajustarmos um modelo de regressão linear simples a este conjunto de dados no Excel, receberemos o seguinte resultado:
Observe que o R ao quadrado de 65,76% é exatamente igual ao do exemplo anterior.
No entanto, o erro padrão da regressão é 2,095 , que é exatamente metade do erro padrão da regressão do exemplo anterior.
Se traçarmos os pontos de dados reais com a linha de regressão, podemos ver isso mais claramente:
Observe como as observações estão agrupadas muito mais estreitamente em torno da linha de regressão. Em média, os valores observados estão localizados a 2.095 unidades da reta de regressão.
Portanto, embora ambos os modelos de regressão tenham um R ao quadrado de 65,76% , sabemos que o segundo modelo forneceria previsões mais precisas porque tem um erro padrão de regressão mais baixo.
Os benefícios de usar o erro padrão
O erro padrão da regressão (S) é muitas vezes mais útil de saber do que o R quadrado do modelo porque nos dá as unidades reais. Se quisermos usar um modelo de regressão para produzir previsões, S pode facilmente nos dizer se um modelo é preciso o suficiente para ser usado para fins de previsão.
Por exemplo, suponha que queiramos produzir um intervalo de previsão de 95% no qual podemos prever as notas dos exames com uma margem de erro de 6 pontos da pontuação real.
Nosso primeiro modelo tem um R ao quadrado de 65,76%, mas isso não nos diz nada sobre a precisão do nosso intervalo de previsão. Felizmente, também sabemos que o primeiro modelo tem um S de 4,19. Isso significa que um intervalo de previsão de 95% teria aproximadamente 2*4,19 = +/- 8,38 unidades de largura, o que é muito amplo para nosso intervalo de previsão.
Nosso segundo modelo também tem um R ao quadrado de 65,76%, mas, novamente, isso não nos diz nada sobre a precisão do nosso intervalo de previsão. Porém, sabemos que o segundo modelo tem um S de 2.095. Isso significa que um intervalo de previsão de 95% teria aproximadamente 2*2,095 = +/- 4,19 unidades de largura, o que é menor que 6 e, portanto, preciso o suficiente para ser usado para produzir intervalos de previsão.
Leitura adicional
Introdução à regressão linear simples
O que é um bom valor de R ao quadrado?