Compreendendo a heterocedasticidade na análise de regressão


Na análise de regressão, heterocedasticidade (às vezes escrita como heterocedasticidade) refere-se à dispersão desigual de resíduos ou termos de erro. Mais precisamente, este é o caso quando existe uma mudança sistemática na distribuição dos resíduos ao longo do intervalo de valores medidos.

A heterocedasticidade é um problema porque a regressão de mínimos quadrados ordinários (OLS) assume que os resíduos vêm de uma população que possui homocedasticidade , ou seja, variância constante.

Quando a heterocedasticidade está presente em uma análise de regressão, os resultados da análise tornam-se difíceis de acreditar. Especificamente, a heterocedasticidade aumenta a variância das estimativas dos coeficientes de regressão, mas o modelo de regressão não a leva em conta.

Isto torna muito mais provável que um modelo de regressão afirme que um termo do modelo é estatisticamente significativo, quando na realidade não o é.

Este tutorial explica como detectar heterocedasticidade, as causas da heterocedasticidade e possíveis formas de resolver o problema de heterocedasticidade.

Como detectar heterocedasticidade

A maneira mais simples de detectar heterocedasticidade é usar um gráfico de valor/residual ajustado .

Depois de ajustar uma linha de regressão a um conjunto de dados, você pode criar um gráfico de dispersão que mostra os valores ajustados do modelo em relação aos resíduos desses valores ajustados.

O gráfico de dispersão abaixo mostra um gráfico típico do valor ajustado versus o resíduo em que a heterocedasticidade está presente.

Observe como os resíduos se espalham cada vez mais à medida que os valores ajustados aumentam. Esta forma de “cone” é um sinal revelador de heterocedasticidade.

Quais são as causas da heterocedasticidade?

A heterocedasticidade ocorre naturalmente em conjuntos de dados onde existe uma ampla gama de valores de dados observados. Por exemplo:

  • Considere um conjunto de dados que inclua as receitas e despesas anuais de 100.000 pessoas nos Estados Unidos. Para as pessoas com rendimentos mais baixos, a variabilidade das despesas correspondentes será menor, porque estas pessoas provavelmente só terão dinheiro suficiente para pagar as necessidades. Para os indivíduos com rendimentos mais elevados, haverá maior variabilidade nas despesas correspondentes, uma vez que estes indivíduos terão mais dinheiro para gastar, se assim o desejarem. Algumas pessoas com rendimentos mais elevados optarão por gastar a maior parte dos seus rendimentos, enquanto outras optarão por ser frugais e gastar apenas uma parte. Portanto, a variabilidade dos gastos entre esses indivíduos de renda mais elevada será inerentemente maior.
  • Considere um conjunto de dados que inclui as populações e o número de floristas em 1.000 cidades diferentes nos Estados Unidos. Para cidades pouco povoadas, pode ser comum ter apenas um ou dois floristas presentes. Mas em cidades mais populosas, o número de floristas será muito mais variável. Essas cidades podem ter entre 10 e 100 lojas. Isto significa que quando criamos uma análise de regressão e utilizamos a população para prever o número de floristas, haverá inerentemente maior variabilidade nos resíduos para cidades mais populosas.

Alguns conjuntos de dados são simplesmente mais propensos à heterocedasticidade do que outros.

Como corrigir a heterocedasticidade

Existem três maneiras comuns de corrigir a heterocedasticidade:

1. Transforme a variável dependente

Uma maneira de corrigir a heterocedasticidade é transformar a variável dependente de alguma forma. Uma transformação comum é simplesmente obter o logaritmo da variável dependente.

Por exemplo, se utilizarmos o tamanho da população (variável independente) para prever o número de floristas numa cidade (variável dependente), podemos, em vez disso, tentar utilizar o tamanho da população para prever o logaritmo do número de floristas numa cidade.

Usar o log da variável dependente, em vez da variável dependente original, geralmente resulta no desaparecimento da heterocedasticidade.

2. Redefina a variável dependente

Outra forma de corrigir a heterocedasticidade é redefinir a variável dependente. Uma forma comum de fazer isso é usar uma taxa para a variável dependente, em vez do valor bruto.

Por exemplo, em vez de utilizar o tamanho da população para prever o número de floristas numa cidade, podemos utilizar o tamanho da população para prever o número de floristas per capita.

Na maioria dos casos, isto reduz a variabilidade que ocorre naturalmente em populações maiores, uma vez que estamos a medir o número de floristas por pessoa, em vez do número de floristas em si.

3. Use regressão ponderada

Outra forma de corrigir a heterocedasticidade é usar regressão ponderada. Este tipo de regressão atribui um peso a cada ponto de dados com base na variância do seu valor ajustado.

Essencialmente, isso atribui pesos baixos aos pontos de dados que possuem variâncias mais altas, reduzindo seus quadrados residuais. Quando os pesos apropriados são usados, isso pode eliminar o problema da heterocedasticidade.

Conclusão

A heterocedasticidade é um problema bastante comum quando se trata de análise de regressão, pois muitos conjuntos de dados estão inerentemente sujeitos a variações não constantes.

No entanto, usando um gráfico de valor ajustado versus um gráfico residual , pode ser bastante fácil detectar a heterocedasticidade.

E ao transformar a variável dependente, redefinindo a variável dependente ou usando regressão ponderada, o problema da heterocedasticidade pode muitas vezes ser eliminado.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *