Como determinar variáveis significativas em modelos de regressão
Uma das principais perguntas que você se fará após ajustar um modelo de regressão linear múltipla é: quais variáveis são significativas?
Existem dois métodos que você não deve usar para determinar o significado de uma variável:
1. O valor dos coeficientes de regressão
Um coeficiente de regressão para uma determinada variável preditora informa a alteração média na variável de resposta associada a um aumento de uma unidade nessa variável preditora.
No entanto, cada variável preditora num modelo é geralmente medida numa escala diferente. Portanto, não faz sentido comparar os valores absolutos dos coeficientes de regressão para determinar quais variáveis são mais importantes.
2. Os valores p dos coeficientes de regressão
Os valores p dos coeficientes de regressão podem dizer se uma determinada variável preditora tem uma associação estatisticamente significativa com a variável de resposta, mas não podem dizer se uma determinada variável preditora é praticamente significativa no mundo real.
Os valores de P também podem ser baixos devido a um grande tamanho de amostra ou baixa variabilidade, o que na verdade não nos diz se uma determinada variável preditora é significativa ou não na prática.
No entanto, existem dois métodos que você deve usar para determinar o significado das variáveis:
1. Coeficientes de regressão padronizados
Normalmente, quando realizamos regressão linear múltipla, os coeficientes de regressão resultantes na saída do modelo não são padronizados , o que significa que eles usam os dados brutos para encontrar a linha de melhor ajuste.
Porém, é possível padronizar cada variável preditora e a variável resposta (subtraindo o valor médio de cada variável dos valores originais e depois dividindo pelo desvio padrão das variáveis) e depois executar uma regressão, que resulta em coeficientes de regressão padronizados .
Ao padronizar cada variável do modelo, cada variável é medida na mesma escala. Portanto, faz sentido comparar os valores absolutos dos coeficientes de regressão nos resultados para entender quais variáveis têm maior efeito na variável resposta.
2. Experiência no assunto
Embora os valores p possam dizer se há um efeito estatisticamente significativo entre uma determinada variável preditora e a variável de resposta, é necessária experiência no assunto para confirmar se uma variável preditora é realmente relevante e deve realmente ser incluída em um modelo.
O exemplo a seguir mostra como determinar variáveis significativas em um modelo de regressão na prática.
Exemplo: Como determinar variáveis significativas em um modelo de regressão
Suponha que temos o seguinte conjunto de dados contendo informações sobre idade, metragem quadrada e preço de venda de 12 casas:

Suponhamos então que realizamos uma regressão linear múltipla, usando idade e metragem quadrada como variáveis preditoras e preço como variável resposta.
Recebemos o seguinte resultado:

Os coeficientes de regressão nesta tabela não são padronizados , o que significa que foram utilizados os dados brutos para ajustar este modelo de regressão.
À primeira vista, parece que a idade tem um efeito muito maior no preço dos imóveis, uma vez que o seu coeficiente na tabela de regressão é -409,833 , em comparação com apenas 100,866 para a variável preditora metragem quadrada .
No entanto, o erro padrão é muito maior para a idade do que para a metragem quadrada, razão pela qual o valor p correspondente é realmente grande para a idade (p = 0,520) e pequeno para a metragem quadrada (p = 0,000).
A razão para as diferenças extremas nos coeficientes de regressão deve-se às diferenças extremas nas escalas para as duas variáveis:
- Os valores para idade variam de 4 a 44 anos.
- Os valores de metragem quadrada variam de 1.200 a 2.800.
Suponha que normalizemos os dados brutos:

Se realizarmos então uma regressão linear múltipla usando os dados padronizados, obteremos o seguinte resultado da regressão:

Os coeficientes de regressão nesta tabela são padronizados , o que significa que foram utilizados dados padronizados para ajustar este modelo de regressão.
A forma de interpretar os coeficientes da tabela é a seguinte:
- Um aumento de um desvio padrão na idade está associado a uma diminuição de 0,092 desvio padrão no preço da habitação, assumindo que a metragem quadrada permanece constante.
- Um aumento de um desvio padrão na metragem quadrada está associado a um aumento de 0,885 desvio padrão no preço da habitação, assumindo que a idade permanece constante.
Podemos agora ver que a metragem quadrada tem um efeito muito maior sobre os preços das casas do que a idade.
Nota : Os valores p para cada variável preditora são exatamente os mesmos do modelo de regressão anterior.
Ao decidir qual modelo final usar, sabemos agora que a metragem quadrada é muito mais importante para prever o preço de uma casa do que a sua idade .
Em última análise, precisaremos de utilizar a nossa experiência na matéria para determinar quais as variáveis a incluir no modelo final, com base no conhecimento existente sobre os preços da habitação e dos imóveis.
Recursos adicionais
Os tutoriais a seguir fornecem informações adicionais sobre modelos de regressão:
Como ler e interpretar uma tabela de regressão
Como interpretar coeficientes de regressão
Como interpretar valores de P em regressão linear