Heterocedasticidade
Este artigo explica o que é heterocedasticidade nas estatísticas. Além disso, você descobrirá o que causa a heterocedasticidade, quais são suas consequências e como corrigi-la.
O que é heterocedasticidade?
Em estatística, a heterocedasticidade é uma característica que apresenta um padrão de regressão que implica que a variância do erro não é constante. Em outras palavras, um modelo heterocedástico significa que seus erros possuem variância irregular, então o modelo é denominado heterocedástico.
Vale lembrar que o erro (ou residual) é definido como a diferença entre o valor real e o valor estimado pelo modelo de regressão.
Ao construir um modelo de regressão, o erro cometido por cada observação é calculado usando a expressão anterior. Assim, um modelo estatístico é heterocedástico quando a variância dos erros calculados não é constante ao longo das observações, mas varia.
Embora possa parecer muito simples, é importante que um modelo de regressão não apresente heterocedasticidade, pois o cálculo do modelo é baseado no fato de que a variância dos resíduos é constante, na verdade é uma das hipóteses anteriores de os modelos de regressão.
Existem certos testes estatísticos que podem detectar heterocedasticidade, como o teste de White ou o teste de Goldfeld-Quandt. Porém, geralmente através da representação gráfica dos resíduos, sua heterocedasticidade pode ser identificada.
Causas da heterocedasticidade
As causas mais comuns de heterocedasticidade em um modelo são:
- Quando o intervalo de dados é muito amplo em comparação com a média. Se numa mesma amostra estatística existirem valores muito grandes e valores muito pequenos, é provável que o modelo de regressão obtido seja heterocedástico.
- A omissão de variáveis no modelo de regressão também resulta em heterocedasticidade. Logicamente, se uma variável relevante não estiver incluída no modelo, sua variação será incluída nos resíduos e esta não será necessariamente fixa.
- Da mesma forma, uma mudança na estrutura pode produzir um mau ajuste do modelo ao conjunto de dados e, portanto, a variância dos resíduos pode não ser constante.
- Quando algumas variáveis possuem valores muito maiores que as demais variáveis explicativas, o modelo pode apresentar heterocedasticidade. Neste caso, as variáveis podem ser relativizadas para resolver o problema.
No entanto, alguns casos são, por natureza, propensos a exibir heterocedasticidade. Por exemplo, se modelarmos o rendimento de uma pessoa com as suas despesas alimentares, as pessoas mais ricas têm uma variabilidade muito maior nas suas despesas alimentares do que as pessoas mais pobres. Porque uma pessoa rica às vezes come em restaurantes caros e outras vezes em restaurantes baratos, ao contrário de uma pessoa pobre que sempre come em restaurantes baratos. Portanto, é fácil para o modelo de regressão possuir heterocedasticidade.
Consequências da heterocedasticidade
Principalmente, as consequências da heterocedasticidade em um modelo de regressão são as seguintes:
- A eficiência é perdida no estimador de mínimos quadrados, definido como a média dos quadrados dos erros.
- Ocorrem erros no cálculo da matriz de covariância dos estimadores de mínimos quadrados.
Heterocedasticidade correta
Quando o modelo de regressão resultante for heterocedástico, podemos tentar as seguintes correções para obter heterocedasticidade:
- Calcule o logaritmo natural da variável independente, geralmente útil quando a variância dos resíduos aumenta no gráfico.
- Dependendo do gráfico residual, outro tipo de transformação da variável independente pode ser mais prático. Por exemplo, se o gráfico tiver a forma de uma parábola, podemos calcular o quadrado da variável independente e adicionar essa variável ao modelo.
- Outras variáveis também podem ser utilizadas para o modelo; removendo ou adicionando uma variável, a variância dos resíduos pode ser modificada.
- Em vez de usar o critério dos mínimos quadrados, pode ser usado o critério dos mínimos quadrados ponderados.
Heterocedasticidade e homocedasticidade
Por fim, veremos quais são as diferenças entre heterocedasticidade e homocedasticidade em estatística, pois são dois conceitos de modelos de regressão que devemos ter clareza.
A homocedasticidade de um modelo de regressão é uma característica estatística que indica que a variância do erro é constante. Assim, um modelo homocedástico significa que a variância de seus erros é constante.
A diferença entre heterocedasticidade e homocedasticidade está na constância da variância dos resíduos. Se a variância dos resíduos de um modelo não for constante, significa que o modelo é heterocedástico. Por outro lado, se a variância dos resíduos for constante, significa que é homocedástica.
Portanto, precisamos garantir que o modelo de regressão que construímos seja homocedástico, desta forma será atendida a suposição de que a variância dos resíduos é constante.