As quatro suposições da regressão linear
A regressão linear é um método estatístico útil que podemos usar para compreender a relação entre duas variáveis, x e y. No entanto, antes de realizar uma regressão linear, devemos primeiro garantir que quatro pressupostos sejam atendidos:
1. Relacionamento linear: Existe um relacionamento linear entre a variável independente, x, e a variável dependente, y.
2. Independência: Os resíduos são independentes. Em particular, não há correlação entre resíduos consecutivos em dados de séries temporais.
3. Homocedasticidade: Os resíduos possuem variância constante em cada nível de x.
4. Normalidade: Os resíduos do modelo são normalmente distribuídos.
Se um ou mais destes pressupostos não forem cumpridos, os resultados da nossa regressão linear podem não ser fiáveis ou mesmo enganosos.
Neste artigo, fornecemos uma explicação para cada suposição, como determinar se a suposição foi atendida e o que fazer se a suposição não for atendida.
Hipótese 1: Relacionamento linear
Explicação
A primeira suposição da regressão linear é que existe uma relação linear entre a variável independente x e a variável independente y.
Como determinar se essa suposição é atendida
A maneira mais simples de detectar se esta suposição é satisfeita é criar um gráfico de dispersão de x versus y. Isso permite ver visualmente se existe uma relação linear entre as duas variáveis. Se parecer que os pontos no gráfico podem estar ao longo de uma linha reta, então existe algum tipo de relação linear entre as duas variáveis e esta suposição é atendida.
Por exemplo, os pontos no gráfico abaixo parecem cair numa linha reta, indicando que existe uma relação linear entre x e y:
No entanto, não parece haver uma relação linear entre x e y no gráfico abaixo:
E neste gráfico, parece haver uma relação clara entre x e y, mas não uma relação linear :
O que fazer se esta suposição não for respeitada
Se você criar um gráfico de dispersão de valores para xey e descobrir que não há relação linear entre as duas variáveis, você terá várias opções:
1. Aplique uma transformação não linear à variável independente e/ou dependente. Exemplos comuns incluem obter o logaritmo, a raiz quadrada ou o inverso da variável independente e/ou dependente.
2. Adicione outra variável independente ao modelo. Por exemplo, se o gráfico de x versus y tiver uma forma parabólica, pode fazer sentido adicionar X 2 como uma variável independente adicional no modelo.
Hipótese 2: Independência
Explicação
A próxima suposição da regressão linear é que os resíduos são independentes. Isto é particularmente relevante quando se trabalha com dados de séries temporais. Idealmente, não queremos que haja uma tendência entre os resíduos consecutivos. Por exemplo, os resíduos não devem aumentar continuamente ao longo do tempo.
Como determinar se essa suposição é atendida
A maneira mais simples de testar se essa suposição é válida é observar um gráfico de séries temporais de resíduos, que é um gráfico de resíduos versus tempo. Idealmente, a maioria das autocorrelações residuais deveria estar dentro das faixas de confiança de 95% em torno de zero, que estão localizadas aproximadamente +/- 2 na raiz quadrada de n , onde n é o tamanho da amostra. Você também pode testar formalmente se essa suposição é atendida usando o teste Durbin-Watson .
O que fazer se esta suposição não for respeitada
Dependendo de como essa suposição é violada, você tem diversas opções:
- Para correlação serial positiva, considere adicionar defasagens da variável dependente e/ou independente ao modelo.
- Para correlação serial negativa, certifique-se de que nenhuma de suas variáveis esteja atrasada demais .
- Para correlação sazonal, considere adicionar dummies sazonais ao modelo.
Hipótese 3: Homoscedasticidade
Explicação
A próxima suposição da regressão linear é que os resíduos têm variância constante em cada nível de x. Isso é chamado de homocedasticidade . Quando este não é o caso, os resíduos sofrem de heterocedasticidade .
Quando a heterocedasticidade está presente em uma análise de regressão, os resultados da análise tornam-se difíceis de acreditar. Especificamente, a heterocedasticidade aumenta a variância das estimativas dos coeficientes de regressão, mas o modelo de regressão não a leva em conta. Isto torna muito mais provável que um modelo de regressão afirme que um termo do modelo é estatisticamente significativo, quando na realidade não o é.
Como determinar se essa suposição é atendida
A maneira mais fácil de detectar heterocedasticidade é criar um gráfico de valor/residual ajustado .
Depois de ajustar uma linha de regressão a um conjunto de dados, você pode criar um gráfico de dispersão que mostra os valores ajustados do modelo em relação aos resíduos desses valores ajustados. O gráfico de dispersão abaixo mostra um gráfico típico do valor ajustado versus o resíduo em que a heterocedasticidade está presente.
Observe como os resíduos se espalham cada vez mais à medida que os valores ajustados aumentam. Esta forma de “cone” é um sinal clássico de heterocedasticidade:
O que fazer se esta suposição não for respeitada
Existem três maneiras comuns de corrigir a heterocedasticidade:
1. Transforme a variável dependente. Uma transformação comum é simplesmente obter o logaritmo da variável dependente. Por exemplo, se utilizarmos o tamanho da população (variável independente) para prever o número de floristas numa cidade (variável dependente), podemos, em vez disso, tentar utilizar o tamanho da população para prever o logaritmo do número de floristas numa cidade. Usar o log da variável dependente, em vez da variável dependente original, geralmente resulta no desaparecimento da heterocedasticidade.
2. Redefina a variável dependente. Uma forma comum de redefinir a variável dependente é usar uma taxa em vez do valor bruto. Por exemplo, em vez de utilizar o tamanho da população para prever o número de floristas numa cidade, podemos utilizar o tamanho da população para prever o número de floristas per capita. Na maioria dos casos, isto reduz a variabilidade que ocorre naturalmente em populações maiores, uma vez que estamos a medir o número de floristas por pessoa, em vez do número de floristas em si.
3. Use regressão ponderada. Outra forma de corrigir a heterocedasticidade é usar regressão ponderada. Este tipo de regressão atribui um peso a cada ponto de dados com base na variância do seu valor ajustado. Essencialmente, isso atribui pesos baixos aos pontos de dados que possuem variâncias mais altas, reduzindo seus quadrados residuais. Quando os pesos apropriados são usados, isso pode eliminar o problema da heterocedasticidade.
Hipótese 4: normalidade
Explicação
A próxima suposição da regressão linear é que os resíduos são normalmente distribuídos.
Como determinar se essa suposição é atendida
Existem duas maneiras comuns de verificar se essa suposição é satisfeita:
1. Verifique visualmente a hipótese usando gráficos QQ .
Um gráfico QQ, abreviação de gráfico quantil-quantil, é um tipo de gráfico que podemos usar para determinar se os resíduos de um modelo seguem ou não uma distribuição normal. Se os pontos no gráfico formarem aproximadamente uma linha reta diagonal, então a suposição de normalidade é atendida.
O gráfico QQ a seguir mostra um exemplo de resíduos que segue aproximadamente uma distribuição normal:
No entanto, o gráfico QQ abaixo mostra um exemplo de caso em que os resíduos se desviam claramente de uma linha reta diagonal, indicando que não seguem a distribuição normal:
2. Você também pode verificar a suposição de normalidade usando testes estatísticos formais como Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre ou D’Agostino-Pearson. No entanto, lembre-se de que esses testes são sensíveis a amostras grandes – ou seja, muitas vezes concluem que os resíduos não são normais quando o tamanho da amostra é grande. É por isso que muitas vezes é mais fácil simplesmente usar métodos gráficos como um gráfico QQ para verificar esta hipótese.
O que fazer se esta suposição não for respeitada
Se a suposição de normalidade não for atendida, você terá várias opções:
- Primeiro, verifique se os valores discrepantes não têm um grande impacto na distribuição. Se houver valores discrepantes, certifique-se de que sejam valores reais e não erros de entrada de dados.
- Então você pode aplicar uma transformação não linear à variável independente e/ou dependente. Exemplos comuns incluem obter o logaritmo, a raiz quadrada ou o inverso da variável independente e/ou dependente.
Leitura adicional:
Introdução à regressão linear simples
Compreendendo a heterocedasticidade na análise de regressão
Como criar e interpretar um gráfico QQ em R