Anova vs regressão: qual a diferença?


Dois modelos comumente usados em estatística são ANOVA e modelos de regressão.

Esses dois tipos de modelos compartilham a seguinte semelhança:

  • A variável resposta em cada modelo é contínua. Exemplos de variáveis contínuas incluem peso, altura, comprimento, largura, tempo, idade, etc.

No entanto, esses dois tipos de modelos compartilham a seguinte diferença :

  • Os modelos ANOVA são usados quando as variáveis preditoras são categóricas. Exemplos de variáveis categóricas incluem nível de escolaridade, cor dos olhos, estado civil, etc.
  • Modelos de regressão são usados quando as variáveis preditoras são contínuas.*

*Modelos de regressão podem ser usados com variáveis preditoras categóricas, mas precisamos criar variáveis fictícias para usá-las.

Os exemplos a seguir mostram quando usar ANOVA ou modelos de regressão na prática.

Exemplo 1: Modelo ANOVA preferido

Suponha que um biólogo queira entender se quatro fertilizantes diferentes levam ou não ao mesmo crescimento médio das plantas (em polegadas) durante o período de um mês. Para testar isso, ela aplica cada fertilizante em 20 plantas e registra o crescimento de cada planta após um mês.

Nesse cenário, o biólogo deve utilizar um modelo ANOVA unidirecional para analisar as diferenças entre os fertilizantes porque existe uma variável preditora e ela é categórica.

Em outras palavras, os valores da variável preditora podem ser classificados nas seguintes “categorias”:

  • Fertilizante 1
  • Fertilizante 2
  • Fertilizante 3
  • Fertilizante 4

Uma ANOVA unidirecional dirá ao biólogo se o crescimento médio das plantas é ou não igual entre os quatro fertilizantes diferentes.

Exemplo 2: Modelo de Regressão Preferencial

Digamos que um corretor de imóveis queira entender a relação entre a metragem quadrada e o preço do imóvel. Para analisar essa relação, ele coleta dados sobre a metragem quadrada e o preço de 200 casas em uma determinada cidade.

Nesse cenário, o agente imobiliário deve utilizar um modelo de regressão linear simples para analisar a relação entre essas duas variáveis, pois a variável preditora (metragem quadrada) é contínua.

Utilizando regressão linear simples, o agente imobiliário pode ajustar o seguinte modelo de regressão:

Preço do imóvel = β 0 + β 1 (área quadrada)

O valor de β 1 representará a variação média no preço da habitação associada a cada metro quadrado adicional.

Isso permitirá ao agente imobiliário quantificar a relação entre a metragem quadrada e o preço do imóvel.

Exemplo 3: Modelo de regressão com variáveis dummy preferenciais

Suponha que um corretor de imóveis queira entender a relação entre as variáveis preditoras “metragem quadrada” e “tipo de casa” (unifamiliar, apartamento, sobrado) com a variável resposta preço do imóvel.

Neste cenário, o agente imobiliário pode utilizar a regressão linear múltipla convertendo o “tipo de casa” em uma variável dummy, uma vez que atualmente é uma variável categórica.

O agente imobiliário pode então ajustar o seguinte modelo de regressão linear múltipla:

Preço do imóvel = β 0 + β 1 (área quadrada) + β 2 (família unifamiliar) + β 3 (apartamento)

Aqui está como interpretaríamos os coeficientes do modelo:

  • β 1 : A variação média no preço da habitação associada a um metro quadrado adicional.
  • β 2 : A diferença média de preço entre uma casa unifamiliar e uma casa geminada, assumindo que a metragem quadrada permanece constante.
  • β 3 : Diferença média de preço entre uma casa unifamiliar e um apartamento, assumindo uma superfície constante.

Confira os seguintes tutoriais para ver como criar variáveis fictícias em diferentes softwares estatísticos:

Recursos adicionais

Os tutoriais a seguir fornecem uma introdução detalhada aos modelos ANOVA:

Os tutoriais a seguir fornecem uma introdução detalhada aos modelos de regressão linear:

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *