Como criar variáveis fictícias no excel (passo a passo)
Uma variável fictícia é um tipo de variável que criamos na análise de regressão para que possamos representar uma variável categórica como uma variável numérica que assume um de dois valores: zero ou um.
Por exemplo, suponha que temos o seguinte conjunto de dados e queremos usar a idade e o estado civil para prever a renda :
Para usar o estado civil como variável preditora em um modelo de regressão, precisamos convertê-lo em uma variável dummy.
Como esta é atualmente uma variável categórica que pode assumir três valores diferentes (“Solteiro”, “Casado” ou “Divorciado”), precisamos criar k -1 = 3-1 = 2 variáveis fictícias.
Para criar esta variável fictícia, podemos deixar “Single” como valor base, pois ele aparece com mais frequência. Veja como converteríamos o estado civil em variáveis fictícias:
Este tutorial fornece um exemplo passo a passo de como criar variáveis fictícias para esse conjunto de dados exato no Excel e, em seguida, realizar análises de regressão usando essas variáveis fictícias como preditores.
Etapa 1: crie os dados
Primeiro, vamos criar o conjunto de dados no Excel:
Etapa 2: criar as variáveis fictícias
A seguir, podemos copiar os valores das colunas A e B para as colunas E e F e, em seguida, usar a função IF() no Excel para definir duas novas variáveis fictícias: Casado e Divorciado.
Aqui está a fórmula que usamos na célula G2 , que copiamos para o restante das células da coluna G:
= IF (C2 = "Married", 1, 0)
E aqui está a fórmula que usamos na célula H2 , que copiamos para o restante das células da coluna H:
= IF (C2 = "Divorced", 1, 0)
Então podemos usar essas variáveis fictícias em um modelo de regressão para prever a renda.
Etapa 3: realizar regressão linear
Para realizar a regressão linear múltipla, precisamos clicar na guia Dados na faixa superior e, em seguida, clicar em Análise de Dados na seção Análise :
Se esta opção não estiver disponível, você deverá primeiro carregar o Analysis Toolpak .
Na janela que aparece, clique em Regressão e depois clique em OK .
Em seguida, preencha as informações a seguir e clique em OK .
Isso produz o seguinte resultado:
A partir do resultado, podemos ver que a linha de regressão ajustada é:
Renda = 14.276,12 + 1.471,67*(idade) + 2.479,75*(casado) – 8.397,40*(divorciado)
Podemos usar esta equação para encontrar a renda estimada de um indivíduo com base em sua idade e estado civil. Por exemplo, uma pessoa de 35 anos e casada teria uma renda estimada de US$ 68.264 :
Renda = 14.276,12 + 1.471,67*(35) + 2.479,75*(1) – 8.397,40*(0) = $ 68.264
Veja como interpretar os coeficientes de regressão na tabela:
- Intercepto: O intercepto representa a renda média de uma pessoa solteira com zero anos. Como um indivíduo não pode ter zero anos, não faz sentido interpretar o intercepto por si só neste modelo de regressão específico.
- Idade: Cada ano de aumento na idade está associado a um aumento médio de US$ 1.471,67 na renda. Como o valor p (0,004) é inferior a 0,05, a idade é um preditor de renda estatisticamente significativo.
- Casado: Uma pessoa casada ganha em média US$ 2.479,75 a mais do que uma pessoa solteira. Como o valor p (0,800) não é inferior a 0,05, esta diferença não é estatisticamente significativa.
- Divorciado: Uma pessoa divorciada ganha em média $ 8.397,40 menos do que uma pessoa solteira. Como o valor p (0,532) não é inferior a 0,05, esta diferença não é estatisticamente significativa.
Como ambas as variáveis dummy não foram estatisticamente significativas, poderíamos remover o estado civil como preditor do modelo, uma vez que não parece agregar valor preditivo à renda.
Recursos adicionais
Como realizar regressão linear simples no Excel
Como calcular a soma residual dos quadrados no Excel
Como realizar regressão polinomial no Excel
Como criar um gráfico residual no Excel