Como interpretar um gráfico de escala e localização: com exemplos
Um gráfico de localização em escala é um tipo de gráfico que exibe os valores ajustados de um modelo de regressão ao longo do eixo x e a raiz quadrada dos resíduos padronizados ao longo do eixo y.
Olhando para este gráfico, verificamos duas coisas:
1. Verifique se a linha vermelha está aproximadamente horizontal no gráfico. Se for este o caso, então a suposição de homocedasticidade é provavelmente satisfeita para um determinado modelo de regressão. Ou seja, a distribuição dos resíduos é aproximadamente igual para todos os valores ajustados.
2. Verifique se não existe uma tendência clara entre os resíduos. Em outras palavras, os resíduos devem ser espalhados aleatoriamente ao redor da linha vermelha com variabilidade aproximadamente igual para todos os valores ajustados.
Plotagem de escala e localização em R
Podemos usar o código a seguir para ajustar um modelo de regressão linear simples em R e produzir um gráfico de escala e localização para o modelo resultante:
#fit simple linear regression model model <- lm(Ozone ~ Temp, data = airquality) #produce scale-location plot plot(model)
Podemos observar as duas coisas a seguir no gráfico escala-localização deste modelo de regressão.
1. A linha vermelha é aproximadamente horizontal no gráfico. Se for este o caso, então a suposição de homocedasticidade é satisfeita para um determinado modelo de regressão. Ou seja, a distribuição dos resíduos é aproximadamente igual para todos os valores ajustados.
2. Verifique se não existe uma tendência clara entre os resíduos. Em outras palavras, os resíduos devem ser espalhados aleatoriamente ao redor da linha vermelha com variabilidade aproximadamente igual para todos os valores ajustados.
Notas técnicas
As três observações do conjunto de dados com os resíduos padronizados mais altos são rotuladas no gráfico.
Podemos ver que as observações nas linhas 30, 62 e 117 apresentam os resíduos padronizados mais elevados.
Isto não significa necessariamente que estas observações sejam discrepantes, mas você pode querer olhar para os dados originais para examinar estas observações mais de perto.
Embora possamos ver que a linha vermelha é aproximadamente horizontal no gráfico de localização da escala, isso serve apenas como uma forma visual de ver se a suposição de homocedasticidade é satisfeita.
Um teste estatístico formal que podemos usar para verificar se a suposição de homocedasticidade é atendida é o teste de Breusch-Pagan .
Teste Breusch-Pagan em R
O código a seguir mostra como usar a função bptest() do pacote lmtest para realizar um teste Breusch-Pagan em R:
#load lmtest package library(lmtest) #perform Breusch-Pagan Test bptest(model) studentized Breusch-Pagan test data: model BP = 1.4798, df = 1, p-value = 0.2238
Um teste de Breusch-Pagan usa as seguintes hipóteses nulas e alternativas:
- Hipótese nula (H 0 ): os resíduos são homocedásticos (ou seja, distribuídos uniformemente)
- Hipótese alternativa ( HA ): Os resíduos são heterocedásticos (ou seja, não distribuídos uniformemente)
Pelo resultado, podemos ver que o valor p do teste é 0,2238 . Como esse valor p não é inferior a 0,05, não rejeitamos a hipótese nula. Não temos evidências suficientes para afirmar que a heterocedasticidade está presente no modelo de regressão.
Este resultado corresponde à nossa inspeção visual da linha vermelha no gráfico escala-localização.
Recursos adicionais
Compreendendo a heterocedasticidade na análise de regressão
Como criar um gráfico residual em R
Como realizar um teste de Breusch-Pagan em R