Introdução à regressão linear múltipla


Quando queremos entender a relação entre uma única variável preditora e uma variável de resposta, geralmente usamos regressão linear simples .

No entanto, se quisermos entender a relação entre múltiplas variáveis preditoras e uma variável resposta, podemos usar a regressão linear múltipla .

Se tivermos p variáveis preditoras, então um modelo de regressão linear múltipla assume a forma:

Y = β 0 + β 1 X 1 + β 2 X 2 +… + β p

Ouro:

  • Y : A variável de resposta
  • X j : a j- ésima variável preditiva
  • β j : O efeito médio em Y de um aumento de uma unidade em X j , mantendo todos os outros preditores fixos
  • ε : O termo de erro

Os valores de β 0 , β 1 , B 2 , …, β p são escolhidos através do método dos mínimos quadrados , que minimiza a soma dos quadrados dos resíduos (RSS):

RSS = Σ(y i – ŷ i ) 2

Ouro:

  • Σ : Um símbolo grego que significa soma
  • y i : o valor real da resposta para a i-ésima observação
  • ŷ i : O valor da resposta prevista com base no modelo de regressão linear múltipla

O método usado para encontrar essas estimativas de coeficientes está vinculado à álgebra matricial e não entraremos em detalhes aqui. Felizmente, qualquer software estatístico pode calcular esses coeficientes para você.

Como interpretar a saída de regressão linear múltipla

Suponhamos que ajustamos um modelo de regressão linear múltipla usando as variáveis preditoras , horas estudadas e exames preparatórios realizados , bem como uma variável resposta nota do exame .

A captura de tela a seguir mostra como seria o resultado da regressão linear múltipla para este modelo:

Nota: A captura de tela abaixo mostra a saída de regressão linear múltipla para Excel , mas os números mostrados na saída são típicos da saída de regressão que você verá usando qualquer software estatístico.

Interpretando Resultados de Regressão Linear Múltipla

A partir dos resultados do modelo, os coeficientes permitem formar um modelo de regressão linear múltipla estimado:

Nota do exame = 67,67 + 5,56*(horas) – 0,60*(exames preparatórios)

A forma de interpretar os coeficientes é a seguinte:

  • Cada aumento adicional de uma unidade nas horas estudadas está associado a um aumento médio de 5,56 pontos na nota do exame, assumindo que os exames práticos permanecem constantes.
  • Cada aumento adicional de uma unidade nos exames preparatórios realizados está associado a uma diminuição média de 0,60 pontos na nota do exame, assumindo que o número de horas estudadas permanece constante.

Também podemos usar esse modelo para determinar a nota esperada no exame que um aluno receberá com base no número total de horas estudadas e nos exames preparatórios realizados. Por exemplo, um aluno que estuda 4 horas e faz 1 exame preparatório deverá obter nota 89,31 no exame:

Nota do exame = 67,67 + 5,56*(4) -0,60*(1) = 89,31

Veja como interpretar o restante dos resultados do modelo:

  • R-Quadrado: Isso é chamado de coeficiente de determinação. É a proporção da variância da variável resposta que pode ser explicada pelas variáveis explicativas. Neste exemplo, 73,4% da variação nas notas dos exames é explicada pela quantidade de horas estudadas e pela quantidade de exames preparatórios realizados.
  • Erro padrão: Esta é a distância média entre os valores observados e a linha de regressão. Neste exemplo, os valores observados desviam-se em média 5.366 unidades da linha de regressão.
  • F: Esta é a estatística F geral para o modelo de regressão, calculada como Regressão MS/Residual MS.
  • F Significado: Este é o valor p associado à estatística F geral. Isto nos diz se o modelo de regressão como um todo é estatisticamente significativo ou não. Por outras palavras, diz-nos se as duas variáveis explicativas combinadas têm uma associação estatisticamente significativa com a variável resposta. Nesse caso, o valor p é inferior a 0,05, indicando que as variáveis explicativas, horas estudadas e exames preparatórios realizados somados, possuem associação estatisticamente significativa com o resultado do exame.
  • Valores P do coeficiente. Os valores p individuais nos dizem se cada variável explicativa é estatisticamente significativa ou não. Podemos perceber que as horas estudadas são estatisticamente significativas (p = 0,00) enquanto os exames preparatórios realizados (p = 0,52) não são estatisticamente significativos para α = 0,05. Como os exames preparatórios anteriores não são estatisticamente significativos, podemos acabar decidindo retirá-los do modelo.

Como avaliar o ajuste de um modelo de regressão linear múltipla

Dois números são comumente usados para avaliar quão bem um modelo de regressão linear múltipla “se ajusta” a um conjunto de dados:

1. R-quadrado: Esta é a proporção da variância na variável resposta que pode ser explicada pelas variáveis preditoras.

O valor de R ao quadrado pode variar de 0 a 1. Um valor 0 indica que a variável de resposta não pode ser explicada pela variável preditora. Um valor 1 indica que a variável resposta pode ser perfeitamente explicada sem erros pela variável preditora.

Quanto maior o R quadrado de um modelo, melhor o modelo será capaz de ajustar os dados.

2. Erro padrão: É a distância média entre os valores observados e a linha de regressão. Quanto menor o erro padrão, melhor o modelo é capaz de ajustar os dados.

Se quisermos fazer previsões usando um modelo de regressão, o erro padrão da regressão pode ser uma métrica mais útil para saber do que o R-quadrado, porque nos dá uma ideia de quão precisas são nossas previsões em termos de unidades.

Para obter uma explicação completa dos prós e contras do uso de R-quadrado versus erro padrão para avaliar o ajuste do modelo, consulte os seguintes artigos:

Suposições múltiplas de regressão linear

A regressão linear múltipla faz quatro suposições principais sobre os dados:

1. Relacionamento linear: Existe um relacionamento linear entre a variável independente, x, e a variável dependente, y.

2. Independência: Os resíduos são independentes. Em particular, não há correlação entre resíduos consecutivos em dados de séries temporais.

3. Homocedasticidade: Os resíduos possuem variância constante em cada nível de x.

4. Normalidade: Os resíduos do modelo são normalmente distribuídos.

Para uma explicação completa de como testar essas hipóteses, consulte este artigo .

Regressão linear múltipla usando software

Os tutoriais a seguir fornecem exemplos passo a passo sobre como realizar regressão linear múltipla usando diferentes softwares estatísticos:

Como realizar regressão linear múltipla em R
Como realizar regressão linear múltipla em Python
Como realizar regressão linear múltipla no Excel
Como realizar regressão linear múltipla no SPSS
Como realizar regressão linear múltipla no Stata
Como realizar regressão linear no Planilhas Google

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *