O que são resíduos padronizados?


Um resíduo é a diferença entre um valor observado e um valor previsto em um modelo de regressão .

É calculado da seguinte forma:

Residual = Valor observado – Valor previsto

Se plotarmos os valores observados e sobrepormos a linha de regressão ajustada, os resíduos de cada observação seriam a distância vertical entre a observação e a linha de regressão:

Exemplo de resíduo nas estatísticas

Um tipo de resíduo que costumamos usar para identificar valores discrepantes em um modelo de regressão é chamado de resíduo padronizado .

É calculado da seguinte forma:

r eu = e eu / s(e eu ) = e eu / RSE√ 1-h ii

Ouro:

  • e i : O i- ésimo resíduo
  • RSE: erro padrão residual do modelo
  • h ii : O surgimento da i-ésima observação

Na prática, muitas vezes consideramos qualquer resíduo padronizado cujo valor absoluto seja superior a 3 como um valor atípico.

Isso não significa necessariamente que retiraremos essas observações do modelo, mas deveríamos pelo menos estudá-las mais a fundo para verificar se não são resultado de um erro de entrada de dados ou de algum outro evento estranho.

Nota: Às vezes, os resíduos padronizados também são chamados de “resíduos estudados internamente”.

Exemplo: Como calcular resíduos padronizados

Suponha que temos o seguinte conjunto de dados com 12 observações no total:

Se usarmos software estatístico (como R , Excel , Python , Stata , etc.) para ajustar uma linha de regressão linear a este conjunto de dados, descobriremos que a linha de melhor ajuste será:

y = 29,63 + 0,7553x

Usando esta linha, podemos calcular o valor previsto para cada valor de Y com base no valor de X. Por exemplo, o valor previsto da primeira observação seria:

y = 29,63 + 0,7553*(8) = 35,67

Podemos então calcular o resíduo para esta observação da seguinte forma:

Residual = Valor observado – Valor previsto = 41 – 35,67 = 5,33

Podemos repetir este processo para encontrar o resíduo para cada observação:

Como calcular resíduos

Também podemos usar software estatístico para descobrir que o erro padrão residual do modelo é 4,44 .

E, embora esteja além do escopo deste tutorial, podemos usar software para encontrar a estatística de alavancagem (h ii ) para cada observação:

Podemos então usar a seguinte fórmula para calcular o resíduo padronizado para cada observação:

r eu = e eu / RSE√ 1-h ii

Por exemplo, o resíduo padronizado para a primeira observação é calculado da seguinte forma:

ri = 5,33 / 4,44√ 1-0,27 = 1,404

Podemos repetir este processo para encontrar o resíduo padronizado para cada observação:

Exemplo de cálculo de resíduos padronizados

Podemos então criar um gráfico de dispersão rápido dos valores preditivos em relação aos resíduos padronizados para ver visualmente se algum dos resíduos padronizados excede um limite de valor absoluto de 3:

Gráfico de valores preditivos versus resíduos padronizados

No gráfico, podemos ver que nenhum dos resíduos padronizados excede o valor absoluto de 3. Assim, nenhuma das observações parece ser atípica.

Deve-se notar que, em alguns casos, os pesquisadores consideram observações cujos resíduos padronizados excedem um valor absoluto de 2 como outliers.

Depende de você, dependendo da área em que está trabalhando e do problema específico em que está trabalhando, se deseja usar um valor absoluto de 2 ou 3 como limite para valores discrepantes.

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre resíduos padronizados:

O que são resíduos nas estatísticas?
Como calcular resíduos padronizados no Excel
Como calcular resíduos padronizados em R
Como calcular resíduos padronizados em Python

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *