Qual é a armadilha da variável fictícia? (definição e #038; exemplo)


A regressão linear é um método que podemos usar para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta .

Geralmente usamos regressão linear com variáveis quantitativas . Às vezes chamadas de variáveis “numéricas”, são variáveis que representam uma quantidade mensurável. Exemplos incluem:

  • Número de metros quadrados em uma casa
  • Tamanho populacional de uma cidade
  • Idade de um indivíduo

No entanto, às vezes queremos usar variáveis categóricas como variáveis preditoras. São variáveis que recebem nomes ou rótulos e podem ser divididas em categorias. Exemplos incluem:

  • Cor dos olhos (por exemplo, “azul”, “verde”, “castanho”)
  • Gênero (por exemplo, “homem”, “mulher”)
  • Estado civil (por exemplo, “casado”, “solteiro”, “divorciado”)

Ao usar variáveis categóricas, não faz sentido apenas atribuir valores como 1, 2, 3 a valores como “azul”, “verde” e “marrom”, porque não faz sentido dizer esse verde é duplo. tão colorido quanto o azul ou o marrom é três vezes mais colorido que o azul.

Em vez disso, a solução é usar variáveis fictícias . São variáveis que criamos especificamente para análise de regressão e que assumem um de dois valores: zero ou um.

O número de variáveis fictícias que precisamos criar é igual a k -1 onde k é o número de valores diferentes que a variável categórica pode assumir.

Por exemplo, suponha que temos o seguinte conjunto de dados e queremos usar o estado civil e a idade para prever a renda :

Para usar o estado civil como variável preditora em um modelo de regressão, precisamos convertê-lo em uma variável dummy.

Como esta é atualmente uma variável categórica que pode assumir três valores diferentes (“Solteiro”, “Casado” ou “Divorciado”), precisamos criar k -1 = 3-1 = 2 variáveis fictícias.

Para criar esta variável fictícia, podemos deixar “Single” como valor base, pois ele aparece com mais frequência. Então, aqui está como converteríamos o estado civil em variáveis fictícias:

Variável fictícia com três valores

Poderíamos então usar Idade , Casado e Divorciado como variáveis preditoras em um modelo de regressão.

Ao criar variáveis fictícias, um problema que pode surgir é conhecido como armadilha de variável fictícia . Isso acontece quando criamos k variáveis fictícias em vez de k -1 variáveis fictícias.

Quando isso acontece, pelo menos duas das variáveis dummies sofrerão de multicolinearidade perfeita. Em outras palavras, eles estarão perfeitamente correlacionados. Isto resulta em cálculos incorretos dos coeficientes de regressão e dos seus valores p correspondentes.

Armadilha de variável fictícia: quando o número de variáveis fictícias criadas é igual ao número de valores que o valor categórico pode assumir. Isto leva à multicolinearidade, o que resulta em cálculos incorretos de coeficientes de regressão e valores de p.

Por exemplo, suponha que convertamos o estado civil nas seguintes variáveis fictícias:

Exemplo de armadilha variável fictícia

Neste caso, Solteiro e Casado estão perfeitamente correlacionados e possuem coeficiente de correlação de -1.

Portanto, quando realizamos regressão linear múltipla, os cálculos do coeficiente de regressão estarão incorretos.

Como evitar a armadilha da variável fictícia

Você só precisa se lembrar de uma regra para evitar a armadilha das variáveis fictícias:

Se uma variável categórica puder assumir k valores diferentes, você deverá criar apenas k-1 variáveis fictícias para usar no modelo de regressão.

Por exemplo, suponha que você queira converter uma variável categórica “ano de escola” em variáveis fictícias. Suponha que esta variável assuma os seguintes valores:

  • Estudante de primeiro ano
  • Aluno do segundo ano
  • Júnior
  • Senior

Como esta variável pode assumir 4 valores diferentes, criaremos apenas 3 variáveis fictícias. Por exemplo, nossas variáveis fictícias poderiam ser:

  • X 1 = 1 se aluno do segundo ano; 0 caso contrário
  • X 2 = 1 se Júnior; 0 caso contrário
  • X 3 = 1 teixo Sênior; 0 caso contrário

Como o número de variáveis dummy é um a menos que o número de valores que o “ano letivo” pode assumir, podemos evitar a armadilha da variável dummy e o problema da multicolinearidade.

Recursos adicionais

Como usar variáveis fictícias na análise de regressão
Introdução à regressão linear múltipla
Um guia para multicolinearidade na regressão

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *