Mse vs. rmse: qual métrica você deve usar?


Modelos de regressão são usados para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta .

Sempre que ajustamos um modelo de regressão, queremos entender quão bem o modelo é capaz de usar os valores das variáveis preditoras para prever o valor da variável resposta.

Duas métricas que costumamos usar para quantificar quão bem um modelo se ajusta a um conjunto de dados são o erro quadrático médio (MSE) e a raiz do erro quadrático médio (RMSE), que são calculados da seguinte forma:

MSE : Uma métrica que nos informa a diferença quadrática média entre os valores previstos e os valores reais em um conjunto de dados. Quanto menor o MSE, melhor o modelo se ajusta a um conjunto de dados.

MSE = Σ(ŷ i – y i ) 2 / n

Ouro:

  • Σ é um símbolo que significa “soma”
  • ŷ i é o valor previsto para a i- ésima observação
  • y i é o valor observado para a i-ésima observação
  • n é o tamanho da amostra

RMSE : Uma métrica que nos informa a raiz quadrada da diferença quadrática média entre os valores previstos e os valores reais em um conjunto de dados. Quanto menor o RMSE, melhor o modelo se ajusta a um conjunto de dados.

É calculado da seguinte forma:

RMSE = √ Σ(ŷ i – y i ) 2 / n

Ouro:

  • Σ é um símbolo que significa “soma”
  • ŷ i é o valor previsto para a i- ésima observação
  • y i é o valor observado para a i-ésima observação
  • n é o tamanho da amostra

Observe que as fórmulas são quase idênticas. Na verdade, o erro quadrático médio é apenas a raiz quadrada do erro quadrático médio.

REMSE vs. MSE: Qual métrica você deve usar?

Para avaliar quão bem um modelo se ajusta a um conjunto de dados, usamos com mais frequência o RMSE porque ele é medido nas mesmas unidades que a variável de resposta.

Por outro lado, o MSE é medido em unidades quadradas da variável de resposta.

Para ilustrar isso, suponha que usamos um modelo de regressão para prever quantos pontos 10 jogadores marcarão em um jogo de basquete.

A tabela a seguir mostra os pontos previstos pelo modelo em comparação com os pontos reais marcados pelos jogadores:

Calcularíamos o erro quadrático médio (MSE) da seguinte forma:

  • MSE = Σ(ŷ i – y i ) 2 / n
  • MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
  • MSE = 16

A raiz do erro quadrático médio é 16. Isso nos diz que a diferença quadrática média entre os valores previstos pelo modelo e os valores reais é 16.

A raiz do erro quadrático médio (RMSE) seria simplesmente a raiz quadrada do MSE:

  • ADE = √ EQM
  • REQM = √ 16
  • REQM = 4

O erro quadrático médio é 4. Isso nos diz que o desvio médio entre os pontos previstos marcados e os pontos reais marcados é 4.

Observe que interpretar o erro quadrático médio é muito mais simples do que o erro quadrático médio, porque estamos falando de “pontos marcados” em oposição a “pontos marcados ao quadrado”.

Como usar o RMSE na prática

Na prática, normalmente ajustamos vários modelos de regressão a um conjunto de dados e calculamos a raiz do erro quadrático médio (RMSE) de cada modelo.

Selecionamos então o modelo com o menor valor de RMSE como o “melhor” modelo, porque é aquele que faz as previsões mais próximas dos valores reais no conjunto de dados.

Observe que também podemos comparar os valores do MSE de cada modelo, mas o RMSE é mais simples de interpretar e, portanto, é usado com mais frequência.

Recursos adicionais

Introdução à regressão linear múltipla
RMSE vs. R-Squared: qual métrica você deve usar?
Calculadora RMSE

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *