Quando você deve usar a regressão polinomial?


A regressão polinomial é uma técnica que podemos usar para ajustar um modelo de regressão quando a relação entre a(s) variável(ões) preditora(s) e a variável de resposta é não linear.

Um modelo de regressão polinomial assume a seguinte forma:

Y = β 0 + β 1 X + β 2 X 2 +… + β h

Na prática, existem três maneiras simples de determinar se você deve usar a regressão polinomial em vez de um modelo mais simples como a regressão linear .

1. Crie um gráfico de dispersão da variável preditora e da variável de resposta

A maneira mais fácil de determinar se você deve usar a regressão polinomial é criar um gráfico de dispersão simples da variável preditora e da variável resposta.

Por exemplo, digamos que queremos usar a variável preditora “horas de estudo” para prever a nota que um aluno receberá em um exame final.

Antes de ajustar um modelo de regressão, podemos primeiro criar um gráfico de dispersão das horas estudadas em relação aos resultados dos exames. Suponha que nosso gráfico de dispersão seja assim:

A relação entre as horas estudadas e os resultados dos exames parece linear , portanto faria sentido ajustar um modelo de regressão linear simples a este conjunto de dados.

No entanto, vamos supor que o gráfico de dispersão realmente se pareça com o seguinte:

Esta relação parece um pouco mais não linear , o que nos diz que pode ser sensato ajustar um modelo de regressão polinomial.

2. Crie um gráfico de valores ajustados e residuais

Outra maneira de determinar se você deve usar a regressão polinomial é ajustar um modelo de regressão linear ao conjunto de dados e, em seguida, criar um gráfico dos valores ajustados em relação aos resíduos do modelo.

Se houver uma tendência não linear clara nos resíduos, isso indica que a regressão polinomial pode fornecer um melhor ajuste aos dados.

Por exemplo, suponha que ajustamos um modelo de regressão linear usando horas estudadas como variável preditora e pontuação no exame como variável de resposta e, em seguida, criamos o seguinte gráfico de valores ajustados em relação aos resíduos:

Os resíduos estão espalhados aleatoriamente em torno de zero sem nenhum padrão claro, indicando que um modelo linear fornece um ajuste apropriado aos dados.

No entanto, vamos supor que nosso gráfico de valores ajustados versus resíduos realmente se pareça com o seguinte:

No gráfico, podemos ver que existe um padrão não linear claro nos resíduos – os resíduos apresentam uma forma de “U”.

Isto nos diz que um modelo linear não é apropriado para esses dados específicos e que pode ser sensato ajustar um modelo de regressão polinomial.

3. Calcule o valor R-quadrado ajustado do modelo

Outra maneira de determinar se você deve usar a regressão polinomial é ajustar um modelo de regressão linear e um modelo de regressão polinomial e calcular os valores R-quadrados ajustados para ambos os modelos.

O R-quadrado ajustado representa a proporção da variância na variável resposta que pode ser explicada pelas variáveis preditoras no modelo, ajustada pelo número de variáveis preditoras no modelo.

O modelo com o maior R quadrado ajustado representa o modelo que é melhor capaz de usar a(s) variável(ões) preditora(s) para explicar a variação na variável resposta.

Recursos adicionais

Os tutoriais a seguir explicam como realizar regressão polinomial usando diferentes softwares estatísticos:

Uma introdução à regressão polinomial
Como realizar regressão polinomial em R
Como realizar regressão polinomial em Python
Como realizar regressão polinomial no Excel

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *