O que é considerado um bom valor rmse?
Uma maneira de avaliar quão bem um modelo de regressão se ajusta a um conjunto de dados é calcular o erro quadrático médio , que nos informa a distância média entre os valores previstos do modelo e os valores reais do conjunto de dados. dados.
A fórmula para encontrar o erro quadrático médio, frequentemente abreviado como RMSE , é:
RMSE = √ Σ(P i – O i ) 2 / n
Ouro:
- Σ é um símbolo sofisticado que significa “soma”
- Pi é o valor previsto para a i-ésima observação no conjunto de dados
- O i é o valor observado para a i-ésima observação no conjunto de dados
- n é o tamanho da amostra
Uma pergunta que as pessoas costumam fazer é: qual é um bom valor RMSE?
A resposta curta: depende .
Quanto menor o RMSE, melhor um determinado modelo é capaz de “ajustar” um conjunto de dados. No entanto, o intervalo do conjunto de dados com o qual você está trabalhando é importante para determinar se um determinado valor de RMSE é “baixo” ou não.
Por exemplo, considere os seguintes cenários:
Cenário 1: Gostaríamos de utilizar um modelo de regressão para prever o preço das casas em uma determinada cidade. Suponha que o modelo tenha um valor RMSE de US$ 500. Como a faixa típica de preço de uma casa está entre US$ 70.000 e US$ 300.000, esse valor RMSE é extremamente baixo. Isso nos diz que o modelo é capaz de prever com precisão os preços dos imóveis.
Cenário 2: Agora suponha que queiramos usar um modelo de regressão para prever quanto uma pessoa gastará por mês em uma determinada cidade. Suponha que o modelo tenha um valor RMSE de US$ 500. Se a faixa típica de gastos mensais estiver entre US$ 1.500 e US$ 4.000, esse valor RMSE é bastante alto. Isso nos diz que o modelo não é capaz de prever despesas mensais com muita precisão.
Esses exemplos simples mostram que não existe um valor RMSE “bom” universal. Tudo depende da faixa de valores do conjunto de dados com o qual você está trabalhando.
Normalização do valor RMSE
Uma maneira de entender melhor se um determinado valor RMSE é “bom” é normalizá-lo usando a seguinte fórmula:
RMSE normalizado = RMSE / (valor máximo – valor mínimo)
Isso produz um valor entre 0 e 1, onde valores mais próximos de 0 representam modelos de melhor ajuste.
Por exemplo, digamos que nosso valor RMSE seja US$ 500 e nossa faixa de valor seja US$ 70.000 a US$ 300.000. Calcularíamos o valor RMSE normalizado da seguinte forma:
- RMSE normalizado = $ 500 / ($ 300.000 – $ 70.000) = 0,002
Por outro lado, vamos supor que nosso valor RMSE seja US$ 500 e nossa faixa de valor esteja entre US$ 1.500 e US$ 4.000. Calcularíamos o valor RMSE normalizado da seguinte forma:
- RMSE normalizado = $ 500 / ($ 4.000 – $ 1.500) = 0,2 .
O primeiro valor RMSE normalizado é muito mais baixo, indicando que fornece um ajuste muito melhor aos dados em comparação com o segundo valor RMSE normalizado.
Comparação de RMSE entre modelos
Em vez de escolher um número arbitrário para representar um valor RMSE “bom”, podemos simplesmente comparar os valores RMSE de vários modelos.
Por exemplo, suponha que ajustamos três modelos de regressão diferentes para prever preços imobiliários. Suponha que os três modelos tenham os seguintes valores RMSE:
- Modelo 1 RMSE: $ 550
- Modelo 2 RMSE: $ 480
- Modelo 3 RMSE: $ 1.400
Como o valor RMSE do Modelo 2 é o mais baixo, selecionaríamos o Modelo 2 como o melhor modelo para prever os preços imobiliários, uma vez que a distância média entre os preços previstos e reais é mais baixa para este modelo.
Recursos adicionais
Como interpretar o RMSE
Como calcular RMSE no Excel
Como calcular RMSE em R
Como calcular RMSE em Python
Calculadora RMSE