Rmse vs. r-squared: qual métrica você deve usar?


Modelos de regressão são usados para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta.

Sempre que ajustamos um modelo de regressão, queremos entender até que ponto o modelo “se ajusta” aos dados. Em outras palavras, quão bem o modelo é capaz de usar os valores das variáveis preditoras para prever o valor da variável resposta ?

Duas métricas que os estatísticos costumam usar para quantificar quão bem um modelo se ajusta a um conjunto de dados são a raiz do erro quadrático médio (RMSE) e o R ao quadrado ( R2 ), que são calculados da seguinte forma:

RMSE : uma métrica que nos diz a que distância os valores previstos estão dos valores observados em um conjunto de dados, em média. Quanto menor o RMSE, melhor o modelo se ajusta a um conjunto de dados.

É calculado da seguinte forma:

RMSE = √ Σ(P i – O i ) 2 / n

Ouro:

  • Σ é um símbolo que significa “soma”
  • Pi é o valor previsto para a i-ésima observação
  • O i é o valor observado para a i-ésima observação
  • n é o tamanho da amostra

R 2 : Uma métrica que nos diz quanto da variância na variável resposta de um modelo de regressão pode ser explicada pelas variáveis preditoras. Este valor está entre 0 e 1. Quanto maior o valor de R 2 , melhor o modelo se ajusta a um conjunto de dados.

É calculado da seguinte forma:

R2 = 1 – (RSS/TSS)

Ouro:

  • RSS representa a soma dos quadrados dos resíduos
  • TSS representa a soma total dos quadrados

RMSE vs R 2 : Qual métrica você deve usar?

Ao avaliar o ajuste de um modelo a um conjunto de dados, é útil calcular tanto o valor RMSE como o valor R 2 , porque cada métrica nos diz algo diferente.

Por um lado, o RMSE indica-nos a distância típica entre o valor previsto feito pelo modelo de regressão e o valor verdadeiro.

Por outro lado, R 2 nos diz até que ponto as variáveis preditoras podem explicar a variação na variável resposta.

Por exemplo, suponha que temos o seguinte conjunto de dados que exibe informações sobre casas em uma determinada cidade:

Agora, digamos que queremos usar a metragem quadrada, o número de banheiros e o número de quartos para prever o preço de uma casa.

Podemos adaptar o seguinte modelo de regressão:

Preço = β 0 + β 1 (metragem quadrada) + β 2 (# banheiros) + β 3 (# quartos)

Agora, suponha que ajustamos esse modelo e, em seguida, calculamos as seguintes métricas para avaliar a qualidade do ajuste do modelo:

  • REQM : 14.342
  • R2 : 0,856

O valor RMSE nos diz que a diferença média entre o preço da casa previsto pelo modelo e o preço real da casa é de $ 14.342.

O valor do R 2 nos diz que as variáveis preditoras do modelo (metragem quadrada, número de banheiros e número de quartos) são capazes de explicar 85,6% da variação dos preços das moradias.

Para determinar se estes valores são “bons” ou não, podemos comparar estas medidas com modelos alternativos.

Por exemplo, suponha que ajustamos outro modelo de regressão que usa um conjunto diferente de variáveis preditoras e calculamos as seguintes métricas para esse modelo:

  • REQM : 19.355
  • R2 : 0,765

Podemos observar que o valor RMSE deste modelo é superior ao do modelo anterior. Verifica-se também que o valor de R 2 deste modelo é inferior ao do modelo anterior. Isto nos diz que este modelo se ajusta menos aos dados do que o modelo anterior.

Resumo

Aqui estão os principais pontos levantados neste artigo:

  • O RMSE e o R 2 quantificam quão bem um modelo de regressão se ajusta a um conjunto de dados.
  • O RMSE diz-nos quão bem um modelo de regressão pode prever o valor da variável de resposta em termos absolutos, enquanto R 2 nos diz quão bem um modelo pode prever o valor da variável de resposta em termos percentuais.
  • É útil calcular o RMSE e o R2 para um determinado modelo porque cada métrica nos fornece informações úteis.

Recursos adicionais

Introdução à regressão linear múltipla
R vs R-Quadrado: qual a diferença?
O que é um bom valor de R ao quadrado?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *