Equação de regressão

Este artigo explica o que é uma equação de regressão e para que ela é usada. Da mesma forma, você aprenderá como encontrar uma equação de regressão, um exercício resolvido e, por fim, uma calculadora online para calcular a equação de regressão para qualquer conjunto de dados.

Qual é a equação de regressão?

A equação de regressão é a equação que melhor se ajusta a um gráfico de pontos, ou seja, a equação de regressão é a melhor aproximação de um conjunto de dados.

A equação de regressão tem a forma y=β 01 x, onde β 0 é a constante da equação e β 1 é a inclinação da equação.

y=\beta_0+\beta_1x

Se você olhar para a equação de regressão, é a equação de uma reta. Isto significa que a relação entre a variável independente X e a variável dependente Y é modelada como uma relação linear, uma vez que a linha representa uma relação linear.

Assim, a equação de regressão nos permite relacionar matematicamente a variável independente e a variável dependente de um conjunto de dados. Embora a equação de regressão geralmente não seja capaz de determinar com precisão o valor de cada observação, ela é, no entanto, utilizada para obter uma aproximação do seu valor.

equação de regressão

Como você pode ver no gráfico anterior, a equação de regressão nos ajuda a ver a tendência de um conjunto de dados e que tipo de relacionamento existe entre a variável independente e a variável dependente.

Como calcular a equação de regressão

As fórmulas para cálculo dos coeficientes da equação de regressão linear simples são as seguintes:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Ouro:

  • \beta_0

    é a constante da equação de regressão.

  • \beta_1

    é a inclinação da equação de regressão.

  • x_i

    é o valor da variável independente X dos dados i.

  • y_i

    é o valor da variável dependente Y dos dados i.

  • \overline{x}

    é a média dos valores da variável independente

  • \overline{y}

    é a média dos valores da variável dependente Y.

Exemplo de cálculo da equação de regressão

  • Após a realização de uma prova de estatística, cinco alunos foram questionados sobre quantas horas de estudo dedicaram à prova, os dados estão apresentados na tabela abaixo. Calcule a equação de regressão a partir dos dados estatísticos coletados para relacionar linearmente as horas de estudo com a nota obtida. A seguir, determine qual será a nota obtida por um aluno que estudou 8 horas.

Para encontrar a equação de regressão dos dados amostrais, precisamos determinar os coeficientes b 0 e b 1 da equação e, para isso, precisamos utilizar as fórmulas vistas na seção acima.

Porém, para aplicar as fórmulas da equação de regressão linear, devemos primeiro calcular a média da variável independente e a média da variável dependente:

\begin{array}{c}\overline{x}=\cfrac{11+5+10+12+7}{5}=9\\[4ex]\overline{y}=\cfrac{7+4+5+8+6}{5}=6\end{array}

Agora que conhecemos as médias das variáveis, calculamos o coeficiente β 1 do modelo utilizando sua fórmula correspondente:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[10ex] \beta_1=\cfrac{\begin{array}{c}(11-9)(7-6)+(5-9)(4-6)+(10-9)(5-6)+\\+(12-9)(8-6)+(7-9)(6-6)\end{array}}{(11-9)^2+(5-9)^2+(10-9)^2+(12-9)^2+(7-9)^2}\\[6ex]\beta_1=0,4412\end{array}

Por fim, calculamos o coeficiente β 0 do modelo utilizando sua fórmula correspondente:

\begin{array}{l}\beta_0=\overline{y}-\beta_1\overline{x}\\[3ex]\beta_0=6-0,4412\cdot 9 \\[3ex]\beta_0=2,0294\end{array}

Resumindo, a equação da reta de regressão linear do problema é a seguinte:

y=2,0294+0,4412x

Abaixo você pode ver a representação gráfica dos dados da amostra junto com a equação do modelo de regressão linear simples:

exemplo de linha de regressão linear

Uma vez calculada a equação de regressão, para prever a nota que obterá um aluno que estudou 8 horas, basta substituir este valor na equação de regressão resultante:

y=2,0294+0,4412\cdot 8=5,56

Assim, de acordo com o modelo de regressão linear realizado, se um aluno estudou oito horas, obterá nota 5,56 no exame.

Calculadora de equação de regressão

Insira dados de amostra na calculadora abaixo para calcular sua equação de regressão. É necessário separar os pares de dados, para que na primeira caixa existam apenas os valores da variável independente X e na segunda caixa existam apenas os valores da variável dependente Y.

Os dados devem ser separados por espaço e inseridos usando o ponto final como separador decimal.

  • Variável independente

  • Variável dependente Y:

Equação de regressão linear múltipla

Acabamos de ver o que é a equação de regressão linear simples, porém, o modelo de regressão também pode ser um modelo de regressão linear múltipla, que inclui duas ou mais variáveis independentes. Assim, a regressão linear múltipla permite vincular linearmente diversas variáveis explicativas a uma variável resposta.

A equação para o modelo de regressão linear múltipla é:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Ouro:

  • y

    é a variável dependente.

  • x_i

    é a variável independente eu.

  • \beta_0

    é a constante da equação de regressão linear múltipla.

  • \beta_i

    é o coeficiente de regressão associado à variável

    x_i

    .

  • \bm{\varepsilon}

    é o erro ou resíduo, ou seja, a diferença entre o valor observado e o valor estimado pelo modelo.

  • m

    é o número total de variáveis no modelo.

Então, se tivermos uma amostra com um total de

n

observações, podemos colocar o modelo de regressão linear múltipla em forma de matriz:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

A expressão matricial acima pode ser reescrita atribuindo uma letra a cada matriz:

Y=X\beta+\varepsilon

Assim, aplicando o critério dos mínimos quadrados, podemos chegar à fórmula para estimar os coeficientes de uma equação de regressão linear múltipla :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

No entanto, a aplicação desta fórmula é muito trabalhosa e demorada, razão pela qual na prática se recomenda a utilização de software informático (como Minitab ou Excel) que permite criar um modelo de regressão múltipla com muito mais rapidez.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *