Como testar a multicolinearidade no stata


A multicolinearidade na análise de regressão ocorre quando duas ou mais variáveis explicativas são altamente correlacionadas entre si, de modo que não fornecem informações únicas ou independentes no modelo de regressão. Se o grau de correlação entre as variáveis for alto o suficiente, isso pode causar problemas no ajuste e na interpretação do modelo de regressão.

Por exemplo, suponha que você execute uma regressão linear múltipla com as seguintes variáveis:

Resposta variável: salto vertical máximo

Variáveis explicativas: tamanho do calçado, altura, tempo de prática

Neste caso, as variáveis explicativas tamanho e altura do calçado provavelmente estão fortemente correlacionadas, uma vez que pessoas altas tendem a ter tamanhos de calçado maiores. Isto significa que a multicolinearidade provavelmente será um problema nesta regressão.

Felizmente, é possível detectar multicolinearidade usando uma métrica chamada fator de inflação de variância (VIF) , que mede a correlação e a força da correlação entre variáveis explicativas em um modelo de regressão.

Este tutorial explica como usar VIF para detectar multicolinearidade em uma análise de regressão no Stata.

Exemplo: multicolinearidade no Stata

Para este exemplo, usaremos o conjunto de dados integrado do Stata chamado auto . Use o seguinte comando para carregar o conjunto de dados:

usar automaticamente

Usaremos o comando regress para ajustar um modelo de regressão linear múltipla usando preço como variável de resposta e peso, comprimento e mpg como variáveis explicativas:

preço de regressão peso comprimento mpg

Saída de regressão linear múltipla no Stata

A seguir, usaremos o comando vive para testar a multicolinearidade:

vivaz

VIF em Stata

Isso produz um valor VIF para cada uma das variáveis explicativas do modelo. O valor VIF começa em 1 e não tem limite superior. Uma regra geral para interpretar VIFs é:

  • Um valor 1 indica que não há correlação entre uma determinada variável explicativa e qualquer outra variável explicativa no modelo.
  • Um valor entre 1 e 5 indica uma correlação moderada entre uma determinada variável explicativa e outras variáveis explicativas no modelo, mas muitas vezes não é suficientemente grave para exigir atenção especial.
  • Um valor superior a 5 indica uma correlação potencialmente grave entre uma determinada variável explicativa e outras variáveis explicativas do modelo. Nesse caso, as estimativas dos coeficientes e os valores p nos resultados da regressão provavelmente não são confiáveis.

Podemos ver que os valores VIF para peso e comprimento são maiores que 5, indicando que a multicolinearidade é provavelmente um problema no modelo de regressão.

Como lidar com a multicolinearidade

Freqüentemente, a maneira mais fácil de lidar com a multicolinearidade é simplesmente remover uma das variáveis do problema, porque a variável que você está removendo provavelmente é redundante de qualquer maneira e adiciona poucas informações exclusivas ou independentes ao modelo.

Para determinar qual variável remover, podemos usar o comando corr para criar uma matriz de correlação para exibir os coeficientes de correlação entre cada uma das variáveis no modelo, o que pode nos ajudar a identificar quais variáveis podem estar altamente correlacionadas entre si e podem causar o problema de multicolinearidade:

corr preço peso comprimento mpg

Matriz de correlação no Stata

Podemos ver que o comprimento está altamente correlacionado tanto com o peso quanto com o mpg, e tem a menor correlação com o preço da variável de resposta. Assim, a remoção do comprimento do modelo poderia resolver o problema da multicolinearidade sem reduzir a qualidade geral do modelo de regressão.

Para testar isso, podemos executar a análise de regressão novamente usando apenas peso e mpg como variáveis explicativas:

preço de regressão peso mpg

Saída de regressão linear múltipla no Stata

Podemos ver que o R-quadrado ajustado deste modelo é 0,2735 em comparação com 0,3298 no modelo anterior. Isto indica que a utilidade global do modelo diminuiu apenas ligeiramente. Então podemos encontrar os valores VIF usando o comando VIF :

VIVAZ

Valores VIF no Stata

Ambos os valores VIF são inferiores a 5, indicando que a multicolinearidade não é mais um problema no modelo.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *