O que são resíduos nas estatísticas?


Um resíduo é a diferença entre um valor observado e um valor previsto na análise de regressão .

É calculado da seguinte forma:

Residual = Valor observado – Valor previsto

Lembre-se de que o objetivo da regressão linear é quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta . Para fazer isso, a regressão linear encontra a linha que melhor “se ajusta” aos dados, chamada de linha de regressão de mínimos quadrados .

Esta linha produz uma previsão para cada observação no conjunto de dados, mas é improvável que a previsão feita pela linha de regressão corresponda exatamente ao valor observado.

A diferença entre a previsão e o valor observado é o resíduo. Se plotarmos os valores observados e sobrepormos a linha de regressão ajustada, os resíduos de cada observação seriam a distância vertical entre a observação e a linha de regressão:

Exemplo de resíduo nas estatísticas

Uma observação tem um resíduo positivo se o seu valor for maior que o valor previsto feito pela linha de regressão.

Por outro lado, uma observação tem um resíduo negativo se o seu valor for menor que o valor previsto feito pela linha de regressão.

Resíduos positivos ou negativos

Algumas observações terão resíduos positivos, enquanto outras terão resíduos negativos, mas todos os resíduos somarão zero .

Exemplo de cálculo de resíduos

Suponha que temos o seguinte conjunto de dados com 12 observações no total:

Se usarmos software estatístico (como R , Excel , Python , Stata , etc.) para ajustar uma linha de regressão linear a este conjunto de dados, descobriremos que a linha de melhor ajuste será:

y = 29,63 + 0,7553x

Usando esta linha, podemos calcular o valor previsto para cada valor de Y com base no valor de X. Por exemplo, o valor previsto da primeira observação seria:

y = 29,63 + 0,7553*(8) = 35,67

Podemos então calcular o resíduo para esta observação da seguinte forma:

Residual = Valor observado – Valor previsto = 41 – 35,67 = 5,33

Podemos repetir este processo para encontrar o resíduo para cada observação:

Como calcular resíduos

Se criarmos um gráfico de dispersão para visualizar as observações com a linha de regressão ajustada, veremos que algumas das observações ficam acima da linha, enquanto outras ficam abaixo da linha:

Linha de regressão com gráfico residual

Propriedades dos resíduos

Os resíduos têm as seguintes propriedades:

  • Cada observação em um conjunto de dados possui um resíduo correspondente. Portanto, se um conjunto de dados contiver 100 observações no total, o modelo produzirá 100 valores previstos, resultando em 100 resíduos no total.
  • A soma de todos os resíduos é zero.
  • O valor médio dos resíduos é zero.

Como os resíduos são usados na prática?

Na prática, os resíduos são usados por três razões diferentes na regressão:

1. Avalie a adequação do modelo.

Depois de produzirmos uma linha de regressão ajustada, podemos calcular a soma residual dos quadrados (RSS) , que é a soma de todos os resíduos quadrados. Quanto menor o RSS, melhor o modelo de regressão se ajusta aos dados.

2. Verifique a suposição de normalidade.

Uma das principais suposições da regressão linear é que os resíduos são normalmente distribuídos.

Para testar esta hipótese, podemos criar um gráfico QQ, que é um tipo de gráfico que podemos usar para determinar se os resíduos de um modelo seguem ou não uma distribuição normal.

Se os pontos no gráfico formarem aproximadamente uma linha reta diagonal, então a suposição de normalidade é atendida.

Exemplo de gráfico QQ

3. Verifique a suposição de homocedasticidade.

Outra suposição importante da regressão linear é que os resíduos têm variância constante em cada nível de x. Isso é chamado de homocedasticidade. Quando este não é o caso, os resíduos sofrem de heterocedasticidade .

Para verificar se essa suposição é atendida, podemos criar um gráfico de resíduos , que é um gráfico de dispersão que mostra os resíduos em relação aos valores previstos do modelo.

Exemplo de plotagem de valores residuais e ajustados
Exemplo de plotagem de valores residuais e ajustados

Se os resíduos estiverem distribuídos aproximadamente uniformemente em torno de zero no gráfico, sem nenhuma tendência clara, então geralmente dizemos que a suposição de homocedasticidade é atendida.

Recursos adicionais

Introdução à regressão linear simples
Introdução à regressão linear múltipla
As quatro suposições da regressão linear
Como criar um gráfico residual no Excel

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *