Multicolinearidade
Este artigo explica o que é multicolinearidade nas estatísticas. Assim, você descobrirá quando existe multicolinearidade, quais são as consequências da multicolinearidade, como identificar a multicolinearidade e, por fim, como resolver este problema.
O que é multicolinearidade?
Multicolinearidade é uma situação que ocorre quando duas ou mais variáveis explicativas em um modelo de regressão apresentam alta correlação. Em outras palavras, num modelo de regressão, a multicolinearidade existe quando a relação entre duas ou mais variáveis no modelo é muito forte.
Por exemplo, se executarmos um modelo de regressão que relacione a esperança de vida de um país com o tamanho da sua população e o PIB, certamente ocorrerá multicolinearidade entre o tamanho da população e o PIB, uma vez que estas duas variáveis estão geralmente fortemente correlacionadas. correlacionado. Será, portanto, difícil analisar o efeito de cada variável na esperança de vida.
Logicamente, as variáveis de um modelo estarão sempre correlacionadas entre si; somente em um processo idílico ocorre a não correlação entre as variáveis. Porém, o que nos interessa é que a correlação entre as variáveis seja baixa, caso contrário não podemos saber o efeito de cada variável explicativa na variável resposta.
As principais causas da multicolinearidade são geralmente o pequeno tamanho da amostra, a existência de uma relação causal entre as variáveis explicativas ou a baixa variabilidade das observações.
Tipos de multicolinearidade
Existem dois tipos de multicolinearidade:
- Multicolinearidade exata : quando uma ou mais variáveis são uma combinação linear de outras variáveis. Neste caso, o coeficiente de correlação entre variáveis multicolineares é igual a 1.
- Multicolinearidade aproximada : Não existe combinação linear entre variáveis, mas o coeficiente de determinação entre duas ou mais variáveis é muito próximo de 1 e portanto são altamente correlacionadas.
Consequências da multicolinearidade
- O valor dos coeficientes de regressão do modelo muda quando são adicionadas variáveis correlacionadas, dificultando a interpretação do modelo de regressão resultante.
- A precisão da estimativa dos parâmetros é reduzida, portanto o erro padrão dos coeficientes de regressão aumenta.
- Algumas das variáveis que causam multicolinearidade são certamente redundantes e, portanto, não há necessidade de incluí-las no modelo.
- É provável que você caia em uma situação de overfitting, ou seja, o modelo está superajustado e, por esse motivo, não é útil para fazer previsões.
- Os valores p dos coeficientes de regressão tornam-se menos confiáveis. Portanto, é mais difícil determinar quais variáveis incluir e quais remover no modelo de regressão.
Como detectar multicolinearidade
Uma forma de identificar a multicolinearidade é calcular a matriz de correlação , pois ela contém o coeficiente de correlação entre todas as variáveis e, portanto, pode-se observar se um par de variáveis é altamente correlacionado.
Porém, com a matriz de correlação, você só pode saber se duas variáveis estão relacionadas entre si, mas não pode saber se existe uma combinação entre um conjunto de variáveis. Para fazer isso, geralmente é calculado o fator de inflação da variância.
O fator de inflação da variância (VIF) , também chamado de fator de inflação da variância (VIF) , é um coeficiente estatístico calculado para cada variável explicativa e indica a correlação de outras variáveis com uma determinada variável explicativa. Concretamente, sua fórmula é a seguinte:
Ouro
é o fator de inflação da variância da variável iy
é o coeficiente de determinação do modelo de regressão que tem a variável i como variável dependente e as demais variáveis como variáveis independentes.
Assim, dependendo do valor dos fatores de inflação da variância obtidos, é possível saber se existe multicolinearidade ou não:
- VIF = 1 : Quando o fator de inflação da variância é igual a 1, significa que não há correlação entre a variável dependente e as demais variáveis.
- 1 < FIV < 5 : há correlação entre as variáveis, mas é moderada. Em princípio, não é necessário aplicar nenhuma ação para corrigir a multicolinearidade.
- VIF > 5 : Se um fator de inflação da variância for maior que 1, significa que a multicolinearidade do modelo é alta e, portanto, deve-se tentar resolvê-la.
Na prática, os fatores de inflação da variância são geralmente calculados usando software de computador, porque criar um modelo de regressão para cada variável e depois encontrar manualmente o valor do coeficiente levaria muito tempo.
Multicolinearidade correta
As seguintes medidas podem ser úteis na resolução de problemas de multicolinearidade num modelo de regressão:
- Se o tamanho da amostra for pequeno, aumentar o número de dados pode reduzir a multicolinearidade aproximada.
- Remova todas as variáveis que produzem multicolinearidade. Se as variáveis forem altamente correlacionadas, pouca informação será perdida no modelo e a multicolinearidade será reduzida.
- Crie o modelo de regressão aplicando o critério de mínimos quadrados parciais (PLS).
- Às vezes você pode deixar o modelo de regressão como está, com multicolinearidade. Por exemplo, se quisermos apenas criar um modelo para fazer previsões e não precisarmos interpretá-lo, podemos usar a equação do modelo para prever o valor da variável dependente com uma nova observação, assumindo que o padrão de multicolinearidade se repete nas novas observações.