Como interpretar o r-quadrado ajustado (com exemplos)
Quando ajustamos modelos de regressão linear, geralmente calculamos o valor R ao quadrado do modelo.
O valor R-quadrado é a proporção da variância na variável resposta que pode ser explicada pelas variáveis preditoras no modelo.
O valor de R ao quadrado pode variar de 0 a 1 onde:
- Um valor 0 indica que a variável de resposta não pode ser explicada pelas variáveis preditoras.
- Um valor 1 indica que a variável resposta pode ser perfeitamente explicada pelas variáveis preditoras.
Embora esta métrica seja comumente usada para avaliar quão bem um modelo de regressão se ajusta a um conjunto de dados, ela tem uma séria desvantagem:
A desvantagem do R ao quadrado:
O R-quadrado sempre aumentará quando uma nova variável preditora for adicionada ao modelo de regressão.
Mesmo que uma nova variável preditora quase não tenha relação com a variável de resposta, o valor R-quadrado do modelo aumentará, mesmo que apenas por uma pequena quantidade.
Por esse motivo, é possível que um modelo de regressão com um grande número de variáveis preditoras tenha um valor alto de R ao quadrado, mesmo que o modelo não se ajuste bem aos dados.
Felizmente, existe uma alternativa ao R ao quadrado chamada R ao quadrado ajustado .
R-quadrado ajustado é uma versão modificada do R-quadrado que se ajusta ao número de preditores em um modelo de regressão.
É calculado da seguinte forma:
R 2 ajustado = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Ouro:
- R 2 : O R 2 do modelo
- n : O número de observações
- k : O número de variáveis preditoras
Como o R-quadrado sempre aumenta à medida que você adiciona preditores a um modelo, o R-quadrado ajustado pode indicar a utilidade de um modelo, ajustado para o número de preditores em um modelo .
A vantagem do R-quadrado ajustado:
O R-quadrado ajustado nos diz quão bem um conjunto de variáveis preditoras é capaz de explicar a variação na variável resposta, ajustada para o número de preditoras em um modelo .
Devido à forma como é calculado, o R-quadrado ajustado pode ser usado para comparar o ajuste de modelos de regressão com diferentes números de variáveis preditoras.
Para entender melhor o R-quadrado ajustado, veja o exemplo a seguir.
Exemplo: Compreendendo o R-quadrado ajustado em modelos de regressão
Suponha que um professor colete dados sobre os alunos de sua turma e ajuste o seguinte modelo de regressão para entender como as horas gastas estudando e a nota atual na aula afetam a nota que um aluno recebe no exame final.
Nota do exame = β 0 + β 1 (horas de estudo) + β 2 (nota atual)
Vamos supor que este modelo de regressão tenha as seguintes métricas:
- R ao quadrado: 0,955
- R-quadrado ajustado: 0,946
Agora suponha que o professor decida coletar dados sobre outra variável para cada aluno: o tamanho do calçado.
Embora esta variável não deva ter relação com a nota do exame final, decide adaptar o seguinte modelo de regressão:
Nota do exame = β 0 + β 1 (horas gastas estudando) + β 2 (ano atual) + β 3 (tamanho do calçado)
Vamos supor que este modelo de regressão tenha as seguintes métricas:
- R ao quadrado: 0,965
- R-quadrado ajustado: 0,902
Se observássemos apenas os valores de R ao quadrado para cada um desses dois modelos de regressão, concluiríamos que o segundo modelo é melhor para usar porque tem um valor de R ao quadrado mais alto!
No entanto, se olharmos para os valores de R ao quadrado ajustado , chegamos a uma conclusão diferente: é melhor utilizar o primeiro modelo porque tem um valor de R ao quadrado ajustado mais elevado.
O segundo modelo só tem um valor R-quadrado mais alto porque tem mais variáveis preditoras do que o primeiro modelo.
No entanto, a variável preditora que adicionamos (tamanho do calçado) foi um preditor fraco da pontuação do exame final, portanto, o valor de R-quadrado ajustado penalizou o modelo por adicionar esta variável preditora.
Este exemplo ilustra por que o R-quadrado ajustado é uma métrica melhor para usar ao comparar o ajuste de modelos de regressão com diferentes números de variáveis preditoras.
Recursos adicionais
Os tutoriais a seguir explicam como calcular valores R-quadrados ajustados usando diferentes softwares estatísticos:
Como calcular R-quadrado ajustado em R
Como calcular R-quadrado ajustado no Excel
Como calcular R-quadrado ajustado em Python