Como interpretar gráficos de diagnóstico em r


Modelos de regressão linear são usados para descrever a relação entre uma ou mais variáveis preditoras e uma variável de resposta.

No entanto, depois de ajustarmos um modelo de regressão, é uma boa ideia produzir também gráficos de diagnóstico para analisar os resíduos do modelo e garantir que um modelo linear seja apropriado para uso para os dados específicos com os quais estamos trabalhando.

Este tutorial explica como criar e interpretar gráficos de diagnóstico para um determinado modelo de regressão em R.

Exemplo: Criar e interpretar gráficos de diagnóstico em R

Suponha que ajustemos um modelo de regressão linear simples usando “horas estudadas” para prever a “nota do exame” dos alunos em uma determinada turma:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6),
                 score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) 

#fit linear regression model
model = lm(score ~ hours, data=df)

Podemos usar o comando plot() para produzir quatro gráficos de diagnóstico para este modelo de regressão:

 #produce diagnostic plots for regression model
plot(model)

gráficos de diagnóstico em R

Gráfico de diagnóstico nº 1: Resíduos vs. Gráfico de alavancagem

Este gráfico é usado para identificar observações influentes. Se algum ponto neste gráfico estiver fora da distância de Cook (as linhas pontilhadas), então esta é uma observação influente.

traçando resíduos e alavancagem em R

Em nosso exemplo, podemos ver que a observação nº 10 está mais próxima do limite de distância de Cook, mas não sai da linha pontilhada. Isso significa que não há pontos excessivamente influentes em nosso conjunto de dados.

Gráfico de diagnóstico nº 2: Gráfico de escala e localização

Este gráfico é utilizado para verificar a suposição de igualdade de variância (também chamada de “homoscedasticidade”) entre os resíduos do nosso modelo de regressão. Se a linha vermelha for aproximadamente horizontal no gráfico, então a suposição de variância igual provavelmente será atendida.

plotado em escala e localização em R

Em nosso exemplo, podemos ver que a linha vermelha não é exatamente horizontal no gráfico, mas não se desvia muito em nenhum ponto. Provavelmente afirmaremos que a suposição de variância igual não é violada neste caso.

Relacionado: Compreendendo a heterocedasticidade na análise de regressão

Rastreamento de diagnóstico nº 3: rastreamento QQ normal

Este gráfico é usado para determinar se os resíduos do modelo de regressão são normalmente distribuídos. Se os pontos neste gráfico estiverem aproximadamente ao longo de uma linha reta diagonal, então podemos assumir que os resíduos são normalmente distribuídos.

No nosso exemplo, podemos ver que os pontos estão aproximadamente ao longo da linha reta diagonal. As observações #10 e #8 desviam-se um pouco da linha nas extremidades, mas não o suficiente para declarar que os resíduos não são normalmente distribuídos.

Gráfico de diagnóstico nº 4: Residuais vs. Gráfico Ajustado

Este gráfico é usado para determinar se os resíduos apresentam padrões não lineares. Se a linha vermelha no centro do gráfico for aproximadamente horizontal, podemos assumir que os resíduos seguem um padrão linear.

No nosso exemplo, podemos ver que a linha vermelha se desvia de uma linha horizontal perfeita, mas não significativamente. Provavelmente estamos afirmando que os resíduos seguem um padrão aproximadamente linear e que um modelo de regressão linear é apropriado para este conjunto de dados.

Recursos adicionais

As quatro suposições da regressão linear
O que são resíduos nas estatísticas?
Como criar um gráfico residual em R
Como interpretar um gráfico de escala e localização

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *