Mse vs. rmse: qual métrica você deve usar?
Modelos de regressão são usados para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta .
Sempre que ajustamos um modelo de regressão, queremos entender quão bem o modelo é capaz de usar os valores das variáveis preditoras para prever o valor da variável resposta.
Duas métricas que costumamos usar para quantificar quão bem um modelo se ajusta a um conjunto de dados são o erro quadrático médio (MSE) e a raiz do erro quadrático médio (RMSE), que são calculados da seguinte forma:
MSE : Uma métrica que nos informa a diferença quadrática média entre os valores previstos e os valores reais em um conjunto de dados. Quanto menor o MSE, melhor o modelo se ajusta a um conjunto de dados.
MSE = Σ(ŷ i – y i ) 2 / n
Ouro:
- Σ é um símbolo que significa “soma”
- ŷ i é o valor previsto para a i- ésima observação
- y i é o valor observado para a i-ésima observação
- n é o tamanho da amostra
RMSE : Uma métrica que nos informa a raiz quadrada da diferença quadrática média entre os valores previstos e os valores reais em um conjunto de dados. Quanto menor o RMSE, melhor o modelo se ajusta a um conjunto de dados.
É calculado da seguinte forma:
RMSE = √ Σ(ŷ i – y i ) 2 / n
Ouro:
- Σ é um símbolo que significa “soma”
- ŷ i é o valor previsto para a i- ésima observação
- y i é o valor observado para a i-ésima observação
- n é o tamanho da amostra
Observe que as fórmulas são quase idênticas. Na verdade, o erro quadrático médio é apenas a raiz quadrada do erro quadrático médio.
REMSE vs. MSE: Qual métrica você deve usar?
Para avaliar quão bem um modelo se ajusta a um conjunto de dados, usamos com mais frequência o RMSE porque ele é medido nas mesmas unidades que a variável de resposta.
Por outro lado, o MSE é medido em unidades quadradas da variável de resposta.
Para ilustrar isso, suponha que usamos um modelo de regressão para prever quantos pontos 10 jogadores marcarão em um jogo de basquete.
A tabela a seguir mostra os pontos previstos pelo modelo em comparação com os pontos reais marcados pelos jogadores:

Calcularíamos o erro quadrático médio (MSE) da seguinte forma:
- MSE = Σ(ŷ i – y i ) 2 / n
- MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- MSE = 16
A raiz do erro quadrático médio é 16. Isso nos diz que a diferença quadrática média entre os valores previstos pelo modelo e os valores reais é 16.
A raiz do erro quadrático médio (RMSE) seria simplesmente a raiz quadrada do MSE:
- ADE = √ EQM
- REQM = √ 16
- REQM = 4
O erro quadrático médio é 4. Isso nos diz que o desvio médio entre os pontos previstos marcados e os pontos reais marcados é 4.
Observe que interpretar o erro quadrático médio é muito mais simples do que o erro quadrático médio, porque estamos falando de “pontos marcados” em oposição a “pontos marcados ao quadrado”.
Como usar o RMSE na prática
Na prática, normalmente ajustamos vários modelos de regressão a um conjunto de dados e calculamos a raiz do erro quadrático médio (RMSE) de cada modelo.
Selecionamos então o modelo com o menor valor de RMSE como o “melhor” modelo, porque é aquele que faz as previsões mais próximas dos valores reais no conjunto de dados.
Observe que também podemos comparar os valores do MSE de cada modelo, mas o RMSE é mais simples de interpretar e, portanto, é usado com mais frequência.
Recursos adicionais
Introdução à regressão linear múltipla
RMSE vs. R-Squared: qual métrica você deve usar?
Calculadora RMSE