Coeficientes de regressão padronizados e não padronizados


A regressão linear múltipla é uma forma útil de quantificar a relação entre duas ou mais variáveis preditoras e uma variável de resposta .

Normalmente, quando realizamos regressão linear múltipla, os coeficientes de regressão resultantes não são padronizados , o que significa que eles usam os dados brutos para encontrar a linha de melhor ajuste.

Contudo, quando as variáveis preditoras são medidas em escalas radicalmente diferentes, pode ser útil realizar regressão linear múltipla utilizando dados padronizados, resultando em coeficientes padronizados .

Para ajudá-lo a entender essa ideia, vamos examinar um exemplo simples.

Exemplo: Coeficientes de regressão padronizados e não padronizados

Suponha que temos o seguinte conjunto de dados contendo informações sobre idade, metragem quadrada e preço de venda de 12 casas:

Suponhamos então que realizamos uma regressão linear múltipla, usando idade e metragem quadrada como variáveis preditoras e preço como variável resposta.

Aqui está o resultado da regressão :

Exemplo de coeficientes de regressão não padronizados

Os coeficientes de regressão nesta tabela não são padronizados , o que significa que foram utilizados os dados brutos para ajustar este modelo de regressão. À primeira vista, parece que a idade tem um efeito muito maior no preço dos imóveis, uma vez que o seu coeficiente na tabela de regressão é -409,833 , em comparação com apenas 100,866 para a variável preditora metragem quadrada .

No entanto, o erro padrão é muito maior para a idade do que para a metragem quadrada, razão pela qual o valor p correspondente é realmente grande para a idade (p = 0,520) e pequeno para a metragem quadrada (p = 0,000).

A razão para as diferenças extremas nos coeficientes de regressão deve-se às diferenças extremas nas escalas para as duas variáveis:

  • Os valores para idade variam de 4 a 44 anos.
  • Os valores de metragem quadrada variam de 1.200 a 2.800.

Suponha que, em vez disso, normalizemos os dados brutos originais convertendo cada valor de dados original em uma pontuação z:

Padronize dados no Excel

Se realizarmos então uma regressão linear múltipla usando os dados padronizados, obteremos o seguinte resultado da regressão:

Coeficientes de regressão padronizados

Os coeficientes de regressão nesta tabela são padronizados , o que significa que foram utilizados dados padronizados para ajustar este modelo de regressão. A forma de interpretar os coeficientes da tabela é a seguinte:

  • Um aumento de um desvio padrão na idade está associado a uma diminuição de 0,092 desvio padrão no preço da habitação, assumindo que a metragem quadrada permanece constante.
  • Um aumento de um desvio padrão na metragem quadrada está associado a um aumento de 0,885 desvio padrão no preço da habitação, assumindo que a idade permanece constante.

Podemos ver imediatamente que a metragem quadrada tem um efeito muito maior sobre os preços dos imóveis do que a idade. Observe também que os valores p para cada variável preditora são exatamente os mesmos do modelo de regressão anterior.

Relacionado: Como calcular pontuações Z no Excel

Quando usar coeficientes de regressão padronizados ou não padronizados

Os coeficientes de regressão padronizados e não padronizados podem ser úteis dependendo da situação. Especialmente:

Os coeficientes de regressão não padronizados são úteis quando você deseja interpretar o efeito que uma alteração de uma unidade em uma variável preditora tem sobre uma variável de resposta. No exemplo acima, poderíamos usar os coeficientes de regressão não padronizados da primeira regressão para compreender a relação exata entre as variáveis preditoras e a variável resposta:

  • Um aumento de uma unidade na idade foi associado a uma redução média de US$ 409 no preço da casa, assumindo que a metragem quadrada permaneceu constante. Este coeficiente revelou-se não estatisticamente significativo (p=0,520).
  • Um aumento de uma unidade na metragem quadrada foi associado a um aumento médio de US$ 100 nos preços das casas, assumindo que a idade permaneceu constante. Este coeficiente também foi estatisticamente significativo (p=0,000).

Os coeficientes de regressão padronizados são úteis quando você deseja comparar o efeito de diferentes variáveis preditoras em uma variável de resposta. Como cada variável é padronizada, você pode ver qual variável tem maior efeito na variável resposta.

A desvantagem dos coeficientes de regressão padronizados é que eles são um pouco mais difíceis de interpretar. Por exemplo, é mais fácil compreender o efeito de um aumento de uma unidade de idade no preço dos imóveis do que o efeito de um aumento de um desvio padrão no preço dos imóveis.

Recursos adicionais

Como ler e interpretar uma tabela de regressão
Como interpretar coeficientes de regressão
Como realizar regressão linear múltipla no Excel

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *