Viés de variável omitida: definição e exemplos


O viés de variável omitida ocorre quando uma variável explicativa relevante não é incluída em um modelo de regressão , o que pode resultar em viés no coeficiente de uma ou mais variáveis explicativas do modelo.

Uma variável omitida é frequentemente excluída de um modelo de regressão por um dos dois motivos:

1. Os dados da variável simplesmente não estão disponíveis.

2. O efeito da variável explicativa na variável resposta é desconhecido.

Para que a variável omitida realmente distorça os coeficientes do modelo, as duas condições a seguir devem ser atendidas:

1. A variável omitida deve estar correlacionada com uma ou mais variáveis explicativas do modelo.

2. A variável omitida deve ser correlacionada com a variável resposta do modelo.

Os efeitos do viés de variável omitida

Suponha que temos duas variáveis explicativas, A e B, e uma variável de resposta, Y. Suponha que ajustamos um modelo de regressão linear simples com A como a única variável explicativa e deixamos B fora do modelo.

Se B estiver correlacionado com A e correlacionado com Y, isso resultará em um viés na estimativa do coeficiente de A. O diagrama a seguir mostra como a estimativa do coeficiente de A será enviesada, dependendo da natureza do relacionamento com B:

Viés de variável omitida

Exemplo: viés de variável omitida

Suponha que queremos estudar o efeito da metragem quadrada no preço dos imóveis e, portanto, aplicamos o seguinte modelo de regressão linear simples:

Preço da casa = B 0 + B 1 (área quadrada)

Suponha que descobrimos que o modelo estimado é:

Preço da casa = 40.203,91 + 118,31 (área quadrada)

A forma como interpretamos o coeficiente para a metragem quadrada é que cada aumento adicional de uma unidade na metragem quadrada está associado a um aumento no preço da habitação de $118,31 em média.

No entanto, suponhamos que deixemos de fora a variável explicativa idade , que acaba por estar fortemente correlacionada negativamente com a metragem quadrada e fortemente correlacionada negativamente com o preço dos imóveis. Essa variável deveria estar no modelo, mas não está. Assim, a estimativa do coeficiente para a metragem quadrada é provavelmente tendenciosa.

Como a idade está negativamente correlacionada com a variável explicativa e de resposta no modelo, esperamos que a estimativa do coeficiente para a metragem quadrada seja positivamente enviesada:

Viés positivo com viés de variável omitida

Suponha que encontramos dados sobre a idade da habitação e depois os incluímos no modelo. O modelo então se torna:

Preço da casa = B 0 + B 1 (área quadrada) + B 2 (idade)

Suponha que descobrimos que o modelo estimado é:

Preço da casa = 123.426,20 + 81,06 (área quadrada) – 1.291,04 (idade)

Observe que a estimativa do coeficiente para a metragem quadrada diminuiu significativamente, o que significa que foi positivamente enviesada no modelo anterior.

A forma como interpretamos o coeficiente de metragem quadrada neste modelo é que cada aumento adicional de uma unidade na metragem quadrada está associado a um aumento médio no preço da casa de $ 81,06, assumindo que a idade permanece constante.

O que fazer com o viés de variável omitida

Infelizmente, o viés de variáveis omitidas ocorre frequentemente no mundo real porque certas variáveis geralmente deveriam ser incluídas em um modelo de regressão, mas não o são porque os dados para elas não estão disponíveis ou a relação entre elas e a variável de resposta é desconhecida.

Se possível, você deve tentar incluir todas as variáveis explicativas relevantes em um modelo de regressão para poder compreender a verdadeira relação entre as variáveis explicativas e a variável de resposta.

A exclusão de variáveis explicativas relevantes de um modelo pode afetar significativamente a interpretação do modelo, como vimos no exemplo anterior com os preços imobiliários.

Recursos adicionais

O que é uma variável oculta?
O que é uma variável confusa?

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *