Viés de variável omitida: definição e exemplos
O viés de variável omitida ocorre quando uma variável explicativa relevante não é incluída em um modelo de regressão , o que pode resultar em viés no coeficiente de uma ou mais variáveis explicativas do modelo.
Uma variável omitida é frequentemente excluída de um modelo de regressão por um dos dois motivos:
1. Os dados da variável simplesmente não estão disponíveis.
2. O efeito da variável explicativa na variável resposta é desconhecido.
Para que a variável omitida realmente distorça os coeficientes do modelo, as duas condições a seguir devem ser atendidas:
1. A variável omitida deve estar correlacionada com uma ou mais variáveis explicativas do modelo.
2. A variável omitida deve ser correlacionada com a variável resposta do modelo.
Os efeitos do viés de variável omitida
Suponha que temos duas variáveis explicativas, A e B, e uma variável de resposta, Y. Suponha que ajustamos um modelo de regressão linear simples com A como a única variável explicativa e deixamos B fora do modelo.
Se B estiver correlacionado com A e correlacionado com Y, isso resultará em um viés na estimativa do coeficiente de A. O diagrama a seguir mostra como a estimativa do coeficiente de A será enviesada, dependendo da natureza do relacionamento com B:
Exemplo: viés de variável omitida
Suponha que queremos estudar o efeito da metragem quadrada no preço dos imóveis e, portanto, aplicamos o seguinte modelo de regressão linear simples:
Preço da casa = B 0 + B 1 (área quadrada)
Suponha que descobrimos que o modelo estimado é:
Preço da casa = 40.203,91 + 118,31 (área quadrada)
A forma como interpretamos o coeficiente para a metragem quadrada é que cada aumento adicional de uma unidade na metragem quadrada está associado a um aumento no preço da habitação de $118,31 em média.
No entanto, suponhamos que deixemos de fora a variável explicativa idade , que acaba por estar fortemente correlacionada negativamente com a metragem quadrada e fortemente correlacionada negativamente com o preço dos imóveis. Essa variável deveria estar no modelo, mas não está. Assim, a estimativa do coeficiente para a metragem quadrada é provavelmente tendenciosa.
Como a idade está negativamente correlacionada com a variável explicativa e de resposta no modelo, esperamos que a estimativa do coeficiente para a metragem quadrada seja positivamente enviesada:
Suponha que encontramos dados sobre a idade da habitação e depois os incluímos no modelo. O modelo então se torna:
Preço da casa = B 0 + B 1 (área quadrada) + B 2 (idade)
Suponha que descobrimos que o modelo estimado é:
Preço da casa = 123.426,20 + 81,06 (área quadrada) – 1.291,04 (idade)
Observe que a estimativa do coeficiente para a metragem quadrada diminuiu significativamente, o que significa que foi positivamente enviesada no modelo anterior.
A forma como interpretamos o coeficiente de metragem quadrada neste modelo é que cada aumento adicional de uma unidade na metragem quadrada está associado a um aumento médio no preço da casa de $ 81,06, assumindo que a idade permanece constante.
O que fazer com o viés de variável omitida
Infelizmente, o viés de variáveis omitidas ocorre frequentemente no mundo real porque certas variáveis geralmente deveriam ser incluídas em um modelo de regressão, mas não o são porque os dados para elas não estão disponíveis ou a relação entre elas e a variável de resposta é desconhecida.
Se possível, você deve tentar incluir todas as variáveis explicativas relevantes em um modelo de regressão para poder compreender a verdadeira relação entre as variáveis explicativas e a variável de resposta.
A exclusão de variáveis explicativas relevantes de um modelo pode afetar significativamente a interpretação do modelo, como vimos no exemplo anterior com os preços imobiliários.