Como calcular resíduos na análise de regressão
A regressão linear simples é um método estatístico que você pode usar para compreender a relação entre duas variáveis, x e y.
Uma variável, x , é conhecida como variável preditora. A outra variável, y , é conhecida como variável de resposta .
Por exemplo, suponha que temos o seguinte conjunto de dados com peso e altura de sete indivíduos:
Seja o peso a variável preditora e a altura a variável resposta.
Se representarmos graficamente essas duas variáveis usando um gráfico de dispersão , com peso no eixo x e altura no eixo y, seria assim:
No gráfico de dispersão podemos ver claramente que à medida que o peso aumenta, a altura também tende a aumentar, mas para realmente quantificar esta relação entre peso e altura precisamos usar a regressão linear.
Usando a regressão linear, podemos encontrar a linha que melhor “se ajusta” aos nossos dados:
A fórmula para esta linha de melhor ajuste está escrita:
ŷ=b 0 + b 1 x
onde ŷ é o valor previsto da variável de resposta, b 0 é o intercepto, b 1 é o coeficiente de regressão e x é o valor da variável preditora.
Neste exemplo, a linha de melhor ajuste é:
tamanho = 32,783 + 0,2001*(peso)
Como calcular resíduos
Observe que os pontos de dados em nosso gráfico de dispersão nem sempre correspondem exatamente à linha de melhor ajuste:
Essa diferença entre o ponto de dados e a linha é chamada de resíduo . Para cada ponto de dados, podemos calcular o resíduo desse ponto tomando a diferença entre o seu valor verdadeiro e o valor previsto da linha de melhor ajuste.
Exemplo 1: Cálculo de um resíduo
Por exemplo, lembre-se do peso e da altura dos sete indivíduos em nosso conjunto de dados:
O primeiro indivíduo pesa 140 libras. e uma altura de 60 polegadas.
Para descobrir a altura esperada desse indivíduo, podemos inserir seu peso na linha da equação de melhor ajuste:
tamanho = 32,783 + 0,2001*(peso)
Assim, o tamanho previsto deste indivíduo é:
altura = 32,783 + 0,2001*(140)
altura = 60,797 polegadas
Portanto, o resíduo para este ponto de dados é 60 – 60,797 = -0,797 .
Exemplo 2: Cálculo de um resíduo
Podemos usar exatamente o mesmo processo usado acima para calcular o resíduo para cada ponto de dados. Por exemplo, vamos calcular o resíduo do segundo indivíduo em nosso conjunto de dados:
O segundo indivíduo pesa 155 libras. e uma altura de 62 polegadas.
Para descobrir a altura esperada desse indivíduo, podemos inserir seu peso na linha da equação de melhor ajuste:
tamanho = 32,783 + 0,2001*(peso)
Assim, o tamanho previsto deste indivíduo é:
altura = 32,783 + 0,2001*(155)
altura = 63,7985 polegadas
Portanto, o resíduo para este ponto de dados é 62 – 63,7985 = -1,7985 .
Calcular todos os resíduos
Usando o mesmo método dos dois exemplos anteriores, podemos calcular os resíduos para cada ponto de dados:
Observe que alguns resíduos são positivos e outros negativos. Se somarmos todos os resíduos, o total deles será zero.
Isso ocorre porque a regressão linear encontra a linha que minimiza o quadrado total dos resíduos, e é por isso que a linha passa perfeitamente pelos dados, com alguns pontos de dados acima da linha e outros abaixo da linha.
Ver resíduos
Lembre-se de que um resíduo é simplesmente a distância entre o valor real dos dados e o valor previsto pela linha de regressão de melhor ajuste. Esta é a aparência visual dessas distâncias em uma nuvem de pontos:
Observe que alguns resíduos são maiores que outros. Além disso, alguns resíduos são positivos e outros negativos, conforme mencionamos anteriormente.
Criando um caminho residual
O objetivo do cálculo dos resíduos é ver quão bem a linha de regressão se ajusta aos dados.
Resíduos maiores indicam que a linha de regressão não se ajusta bem aos dados, ou seja, os pontos de dados reais não se aproximam da linha de regressão.
Resíduos menores indicam que a linha de regressão se ajusta melhor aos dados, ou seja, os pontos de dados reais estão mais próximos da linha de regressão.
Um tipo útil de gráfico para visualizar todos os resíduos de uma vez é o gráfico de resíduos. Um gráfico residual é um tipo de gráfico que exibe valores previstos versus resíduos para um modelo de regressão.
Este tipo de gráfico é frequentemente utilizado para avaliar se um modelo de regressão linear é apropriado ou não para um determinado conjunto de dados e para verificar a heterocedasticidade dos resíduos.
Confira este tutorial para aprender como criar um gráfico residual para um modelo de regressão linear simples no Excel.