Um guia para multicolinearidade e vif em regressão
A multicolinearidade na análise de regressão ocorre quando duas ou mais variáveis preditoras são altamente correlacionadas entre si, de modo que não fornecem informações únicas ou independentes no modelo de regressão.
Se o grau de correlação entre as variáveis for alto o suficiente, isso pode causar problemas no ajuste e na interpretação do modelo de regressão.
Por exemplo, suponha que você execute uma análise de regressão usando a variável de resposta do salto vertical máximo e as seguintes variáveis preditoras:
- altura
- tamanho de sapato
- horas gastas praticando por dia
Nesse caso, a altura e o tamanho do calçado provavelmente estão altamente correlacionados, já que pessoas mais altas tendem a ter calçados maiores. Isto significa que a multicolinearidade provavelmente será um problema nesta regressão.
Este tutorial explica por que a multicolinearidade é um problema, como detectá-la e como corrigi-la.
Por que a multicolinearidade é um problema
Um dos principais objetivos da análise de regressão é isolar a relação entre cada variável preditora e a variável resposta.
Em particular, quando realizamos análise de regressão, interpretamos cada coeficiente de regressão como a variação média na variável resposta, assumindo que todas as outras variáveis preditoras no modelo permanecem constantes.
Isso significa que assumimos que somos capazes de alterar os valores de uma determinada variável preditora sem alterar os valores de outras variáveis preditoras.
No entanto, quando duas ou mais variáveis preditoras estão altamente correlacionadas, torna-se difícil alterar uma variável sem alterar outra.
Isto torna difícil para o modelo de regressão estimar de forma independente a relação entre cada variável preditora e a variável de resposta, porque as variáveis preditoras tendem a mudar em uníssono.
Em geral, a multicolinearidade apresenta dois tipos de problemas:
- As estimativas dos coeficientes do modelo (e até mesmo os sinais dos coeficientes) podem flutuar consideravelmente dependendo das outras variáveis preditoras incluídas no modelo.
- A precisão das estimativas dos coeficientes é reduzida, tornando os valores p não confiáveis. Isto torna difícil determinar quais variáveis preditoras são realmente estatisticamente significativas.
Como detectar multicolinearidade
A forma mais comum de detectar multicolinearidade é usar o fator de inflação de variância (VIF) , que mede a correlação e a força da correlação entre variáveis preditoras em um modelo de regressão.
Usando o fator de inflação de variância (VIF)
A maioria dos softwares estatísticos tem a capacidade de calcular o VIF para um modelo de regressão. O valor VIF começa em 1 e não tem limite superior. Uma regra geral para interpretar VIFs é:
- Um valor 1 indica que não há correlação entre uma determinada variável preditora e qualquer outra variável preditora no modelo.
- Um valor entre 1 e 5 indica uma correlação moderada entre uma determinada variável preditora e outras variáveis preditoras no modelo, mas muitas vezes não é suficientemente grave para exigir atenção especial.
- Um valor superior a 5 indica uma correlação potencialmente séria entre uma determinada variável preditora e outras variáveis preditoras no modelo. Nesse caso, as estimativas dos coeficientes e os valores p nos resultados da regressão provavelmente não são confiáveis.
Por exemplo, suponha que realizamos uma análise de regressão usando as variáveis preditoras altura , tamanho do calçado e horas gastas treinando por dia para prever o salto vertical máximo de jogadores de basquete e receber o seguinte resultado:
Na última coluna, podemos ver que os valores VIF para altura e tamanho do calçado são maiores que 5. Isso indica que eles provavelmente sofrem de multicolinearidade e que suas estimativas de coeficientes e valores de p provavelmente não são confiáveis.
Se olharmos para a estimativa do coeficiente para o tamanho do calçado, o modelo nos diz que para cada unidade adicional de aumento no tamanho do calçado, o aumento médio no salto vertical máximo é de -0,67498 polegadas, assumindo que a altura e as horas de prática permanecem constantes.
Isto não parece fazer sentido, dado que esperaríamos que jogadores com calçados maiores fossem mais altos e, portanto, tivessem um salto vertical máximo mais alto.
Este é um exemplo clássico de multicolinearidade que faz com que as estimativas dos coeficientes pareçam um pouco rebuscadas e pouco intuitivas.
Como resolver a multicolinearidade
Se você detectar multicolinearidade, o próximo passo é decidir se você precisa resolvê-la de alguma forma. Dependendo do objetivo da sua análise de regressão, talvez não seja necessário resolver a multicolinearidade.
Saber:
1. Se houver apenas multicolinearidade moderada, você provavelmente não precisará resolvê-la de forma alguma.
2. A multicolinearidade afeta apenas variáveis preditoras que estão correlacionadas entre si. Se você estiver interessado em uma variável preditora no modelo que não sofra de multicolinearidade, então a multicolinearidade não será um problema.
3. A multicolinearidade tem impacto nas estimativas dos coeficientes e nos valores-p, mas não tem impacto nas previsões ou nas estatísticas de adequação. Isso significa que se o seu objetivo principal com a regressão for fazer previsões e você não estiver interessado em compreender a relação exata entre as variáveis preditoras e a variável resposta, então a multicolinearidade não precisa ser resolvida.
Se você determinar que precisa corrigir a multicolinearidade, algumas soluções comuns incluem:
1. Remova uma ou mais variáveis altamente correlacionadas. Esta é a solução mais rápida na maioria dos casos e muitas vezes é uma solução aceitável porque as variáveis que você remove são redundantes de qualquer maneira e adicionam poucas informações exclusivas ou independentes ao modelo.
2. Combina linearmente as variáveis preditoras de alguma forma, como adicioná-las ou subtraí-las de alguma forma. Ao fazer isso, você pode criar uma nova variável que englobe as informações de ambas as variáveis e não terá mais um problema de multicolinearidade.
3. Execute uma análise projetada para considerar variáveis altamente correlacionadas, como análise de componentes principais ou regressão de mínimos quadrados parciais (PLS) . Essas técnicas são projetadas especificamente para lidar com variáveis preditoras altamente correlacionadas.