O que é um bom valor de r ao quadrado?


O R-quadrado mede quão bem um modelo de regressão linear “se ajusta” a um conjunto de dados. Também comumente chamado de coeficiente de determinação , o R-quadrado é a proporção da variância na variável de resposta que pode ser explicada pela variável preditora.

O valor de R ao quadrado pode variar de 0 a 1. Um valor 0 indica que a variável de resposta não pode ser explicada pela variável preditora. Um valor 1 indica que a variável resposta pode ser perfeitamente explicada sem erros pela variável preditora.

Na prática, você provavelmente nunca verá um valor de 0 ou 1 para R ao quadrado. Em vez disso, você provavelmente encontrará um valor entre 0 e 1.

Por exemplo, digamos que você tenha um conjunto de dados contendo o tamanho da população e o número de floristas em 30 cidades diferentes. Você ajusta um modelo de regressão linear simples ao conjunto de dados, usando o tamanho da população como variável preditora e floristas como variável de resposta. No resultado da regressão você vê que R 2 = 0,2. Isso indica que 20% da variação no número de floristas pode ser explicada pelo tamanho da população.

Isto nos leva a uma questão importante: este é um valor “bom” para R-quadrado?

A resposta a esta pergunta depende do seu objetivo para o modelo de regressão. Saber:

1. Gostaria de explicar a relação entre o(s) preditor(es) e a variável de resposta?

OURO

2. Você deseja prever a variável de resposta?

Dependendo do objetivo, a resposta à pergunta “Qual é um bom valor para R ao quadrado?” ”será diferente.

Explique a relação entre o(s) preditor(es) e a variável de resposta

Se o seu objetivo principal para o seu modelo de regressão é explicar a relação entre o(s) preditor(es) e a variável de resposta, o R-quadrado é virtualmente irrelevante.

Por exemplo, digamos que no exemplo de regressão acima você veja que o coeficiente do tamanho preditivo da população é 0,005 e é estatisticamente significativo. Isso significa que um aumento de um na população está associado a um aumento médio de 0,005 no número de floristas em uma determinada cidade. Além disso, o tamanho da população é um indicador estatisticamente significativo do número de floristas em uma cidade.

O facto de o valor R-quadrado deste modelo de regressão ser 0,2 ou 0,9 não altera esta interpretação. Como você está simplesmente interessado na relação entre o tamanho da população e o número de floristas, não precisa se preocupar muito com o valor R-quadrado do modelo.

Preveja a variável de resposta

Se o seu objetivo principal é prever com precisão o valor da variável de resposta usando a variável preditora, então o R-quadrado é importante.

Em geral, quanto maior o valor de R ao quadrado, mais precisamente as variáveis preditoras são capazes de prever o valor da variável resposta.

O valor necessário para o valor R ao quadrado depende da precisão necessária. Por exemplo, em estudos científicos, pode ser necessário que o R-quadrado seja superior a 0,95 para que um modelo de regressão seja considerado fiável. Noutras áreas, um R quadrado de apenas 0,3 pode ser suficiente se houver uma variabilidade extrema no conjunto de dados.

Para saber o que é considerado um “bom” valor de R ao quadrado, você precisará explorar quais valores de R ao quadrado são geralmente aceitos em seu campo específico de estudo. Se você estiver realizando uma análise de regressão para um cliente ou empresa, poderá perguntar a eles o que é considerado um valor de R ao quadrado aceitável.

Intervalos de previsão

Um intervalo de predição especifica um intervalo dentro do qual uma nova observação pode cair, com base nos valores das variáveis preditoras. Intervalos de previsão mais estreitos indicam que as variáveis preditoras podem prever a variável resposta com mais precisão.

Freqüentemente, um intervalo de previsão pode ser mais útil do que um valor de R ao quadrado porque fornece um intervalo exato de valores dentro dos quais uma nova observação pode cair. Isso é particularmente útil se o objetivo principal da regressão for prever novos valores da variável de resposta.

Por exemplo, suponha que uma população de 40.000 habitantes produza um intervalo de previsão de 30 a 35 floristas em uma determinada cidade. Isto pode ou não ser considerado um intervalo de valores aceitável, dependendo da utilização do modelo de regressão.

Conclusão

Em geral, quanto maior o valor de R ao quadrado, mais precisamente as variáveis preditoras são capazes de prever o valor da variável resposta.

O quão bom um valor de R ao quadrado deve ser para ser considerado “bom” varia dependendo do domínio. Alguns campos exigem maior precisão do que outros.

Para descobrir o que é considerado um “bom” valor de R ao quadrado, considere o que é geralmente aceito na área em que você trabalha, pergunte a alguém com conhecimento específico em uma área específica ou pergunte ao cliente/cliente. empresa para a qual você está executando a análise de regressão. pelo que consideram aceitável.

Se você quiser explicar a relação entre o preditor e a variável de resposta, o R-quadrado é amplamente irrelevante porque não tem impacto na interpretação do modelo de regressão.

Se você quiser prever a variável de resposta, os intervalos de previsão geralmente são mais úteis que os valores de R ao quadrado.

Leitura adicional:

Coeficiente de Correlação de Pearson
Introdução à regressão linear simples

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *