Como usar gráficos qq para verificar a normalidade


Um gráfico QQ, abreviação de “quantil-quantil”, é usado para avaliar se um conjunto de dados vem potencialmente de uma distribuição teórica.

Na maioria dos casos, este tipo de gráfico é usado para determinar se um conjunto de dados segue ou não uma distribuição normal.

Se os dados forem distribuídos normalmente, os pontos em um gráfico QQ estarão em uma linha reta diagonal.

Por outro lado, quanto mais significativamente os pontos no gráfico se desviarem de uma linha reta diagonal, menor será a probabilidade de o conjunto de dados seguir uma distribuição normal.

Os exemplos a seguir mostram como criar gráficos QQ em R para verificar a normalidade.

Exemplo 1: gráfico QQ para dados normais

O código a seguir mostra como gerar um conjunto de dados normalmente distribuído com 200 observações e criar um gráfico QQ para o conjunto de dados em R:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create QQ plot
qqnorm(data)
qqline(data)

Podemos ver que os pontos estão principalmente ao longo da linha reta diagonal, com alguns pequenos desvios ao longo de cada uma das caudas.

Com base neste gráfico, podemos assumir com segurança que este conjunto de dados é normalmente distribuído.

Exemplo 2: gráfico QQ para dados não normais

O código a seguir mostra como criar um gráfico QQ para um conjunto de dados que segue uma distribuição exponencial com 200 observações:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create QQ plot
qqnorm(data)
qqline(data)

Vemos que os pontos se desviam consideravelmente da linha diagonal. Isso indica claramente que o conjunto de dados não é normalmente distribuído.

Isso deve fazer sentido, visto que especificamos que os dados deveriam seguir uma distribuição exponencial.

Gráficos QQ e histogramas

Deve-se notar que os gráficos QQ são uma forma de verificar visualmente se um conjunto de dados segue ou não uma distribuição normal.

Outra forma de verificar visualmente a normalidade é criar um histograma do conjunto de dados. Se os dados seguirem aproximadamente o formato de uma curva em sino no histograma, podemos assumir que o conjunto de dados é normalmente distribuído.

Por exemplo, veja como criar um histograma para o conjunto de dados anteriormente distribuído normalmente:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create a histogram to visualize the distribution
hist(data) 

E aqui está como criar um histograma para o conjunto de dados que segue uma distribuição anterior exponencial:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create a histogram to visualize the distribution
hist(data) 

Vemos que o histograma não se parece em nada com uma curva em forma de sino, o que indica claramente que os dados não seguem uma distribuição normal.

Recursos adicionais

Qual é a suposição de normalidade nas estatísticas?
Como criar um gráfico QQ em R
Como criar um gráfico QQ no Excel
Como criar um gráfico QQ em Python

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *