Como interpretar gráficos de diagnóstico em r
Modelos de regressão linear são usados para descrever a relação entre uma ou mais variáveis preditoras e uma variável de resposta.
No entanto, depois de ajustarmos um modelo de regressão, é uma boa ideia produzir também gráficos de diagnóstico para analisar os resíduos do modelo e garantir que um modelo linear seja apropriado para uso para os dados específicos com os quais estamos trabalhando.
Este tutorial explica como criar e interpretar gráficos de diagnóstico para um determinado modelo de regressão em R.
Exemplo: Criar e interpretar gráficos de diagnóstico em R
Suponha que ajustemos um modelo de regressão linear simples usando “horas estudadas” para prever a “nota do exame” dos alunos em uma determinada turma:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6), score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) #fit linear regression model model = lm(score ~ hours, data=df)
Podemos usar o comando plot() para produzir quatro gráficos de diagnóstico para este modelo de regressão:
#produce diagnostic plots for regression model
plot(model)
Gráfico de diagnóstico nº 1: Resíduos vs. Gráfico de alavancagem
Este gráfico é usado para identificar observações influentes. Se algum ponto neste gráfico estiver fora da distância de Cook (as linhas pontilhadas), então esta é uma observação influente.
Em nosso exemplo, podemos ver que a observação nº 10 está mais próxima do limite de distância de Cook, mas não sai da linha pontilhada. Isso significa que não há pontos excessivamente influentes em nosso conjunto de dados.
Gráfico de diagnóstico nº 2: Gráfico de escala e localização
Este gráfico é utilizado para verificar a suposição de igualdade de variância (também chamada de “homoscedasticidade”) entre os resíduos do nosso modelo de regressão. Se a linha vermelha for aproximadamente horizontal no gráfico, então a suposição de variância igual provavelmente será atendida.
Em nosso exemplo, podemos ver que a linha vermelha não é exatamente horizontal no gráfico, mas não se desvia muito em nenhum ponto. Provavelmente afirmaremos que a suposição de variância igual não é violada neste caso.
Relacionado: Compreendendo a heterocedasticidade na análise de regressão
Rastreamento de diagnóstico nº 3: rastreamento QQ normal
Este gráfico é usado para determinar se os resíduos do modelo de regressão são normalmente distribuídos. Se os pontos neste gráfico estiverem aproximadamente ao longo de uma linha reta diagonal, então podemos assumir que os resíduos são normalmente distribuídos.
No nosso exemplo, podemos ver que os pontos estão aproximadamente ao longo da linha reta diagonal. As observações #10 e #8 desviam-se um pouco da linha nas extremidades, mas não o suficiente para declarar que os resíduos não são normalmente distribuídos.
Gráfico de diagnóstico nº 4: Residuais vs. Gráfico Ajustado
Este gráfico é usado para determinar se os resíduos apresentam padrões não lineares. Se a linha vermelha no centro do gráfico for aproximadamente horizontal, podemos assumir que os resíduos seguem um padrão linear.
No nosso exemplo, podemos ver que a linha vermelha se desvia de uma linha horizontal perfeita, mas não significativamente. Provavelmente estamos afirmando que os resíduos seguem um padrão aproximadamente linear e que um modelo de regressão linear é apropriado para este conjunto de dados.
Recursos adicionais
As quatro suposições da regressão linear
O que são resíduos nas estatísticas?
Como criar um gráfico residual em R
Como interpretar um gráfico de escala e localização