O que é uma observação influente nas estatísticas?


Nas estatísticas, uma observação influente é uma observação num conjunto de dados que, quando removida, altera significativamente as estimativas dos coeficientes de um modelo de regressão.

A maneira mais comum de medir a influência das observações é usar a distância de Cook , que quantifica o quanto todos os valores ajustados em um modelo de regressão mudam quando a i- ésima observação é removida.

Geralmente, qualquer observação com uma distância de Cook superior a 1 é considerada uma observação de alta alavancagem.

O exemplo a seguir mostra como calcular e interpretar a distância de Cook para um determinado conjunto de dados para detectar possíveis observações influentes.

Exemplo: Detecção de observações influentes

Suponha que temos o seguinte conjunto de dados com 14 valores:

Agora suponha que ajustamos um modelo de regressão linear simples . O resultado da regressão é apresentado a seguir:

Usando um software estatístico, podemos calcular os seguintes valores da distância de Cook para cada observação:

Observe que a última observação tem um valor significativamente maior que 1 para a distância de Cook, o que nos diz que é uma observação influente.

Suponha que removamos esse valor do conjunto de dados e ajustemos um novo modelo de regressão linear simples. A saída deste modelo é mostrada abaixo:

Observe que os coeficientes de regressão para a interceptação e x mudaram drasticamente. Isto nos diz que a remoção da observação influente do conjunto de dados mudou completamente o modelo de regressão ajustado.

Os gráficos a seguir mostram a diferença entre essas duas equações de regressão ajustadas:

Observe o quanto uma única observação influente altera a linha de regressão. Ao remover esta observação, conseguimos encontrar uma linha de regressão que se ajustava muito melhor aos dados.

Comentários

É importante notar que a distância de Cook deve ser usada para identificar observações potencialmente influentes. No entanto, só porque uma observação é influente não significa necessariamente que deva ser removida do conjunto de dados.

Primeiro, você precisa verificar se a observação não é resultado de um erro de entrada de dados ou de outro evento estranho. Se for um valor legítimo, você poderá decidir tratá-lo de uma das seguintes maneiras:

  • Remova-o do conjunto de dados.
  • Deixe-o no conjunto de dados.
  • Substitua-o por um valor alternativo como média ou mediana.

Dependendo do seu cenário específico, uma dessas opções pode fazer mais sentido do que as outras.

Como calcular a distância do cozinheiro na prática

Os tutoriais a seguir explicam como calcular a distância de Cook para um determinado conjunto de dados em Python e R:

Como calcular a distância de Cook em Python
Como calcular a distância de Cook em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *