Jak używać wykresów qq do sprawdzania normalności


Wykres QQ, skrót od „kwantyl-kwantyl”, służy do oceny, czy zbiór danych potencjalnie pochodzi z rozkładu teoretycznego.

W większości przypadków ten typ wykresu służy do określenia, czy zbiór danych ma rozkład normalny.

Jeśli dane mają rozkład normalny, punkty na wykresie QQ będą leżeć na prostej ukośnej.

I odwrotnie, im bardziej punkty na wykresie odbiegają od prostej linii ukośnej, tym mniejsze jest prawdopodobieństwo, że zbiór danych będzie miał rozkład normalny.

Poniższe przykłady pokazują, jak tworzyć wykresy QQ w R, aby sprawdzić normalność.

Przykład 1: Wykres QQ dla normalnych danych

Poniższy kod pokazuje, jak wygenerować zbiór danych o rozkładzie normalnym zawierający 200 obserwacji i utworzyć wykres QQ dla zbioru danych w R:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create QQ plot
qqnorm(data)
qqline(data)

Widzimy, że punkty leżą głównie wzdłuż prostej linii ukośnej z niewielkimi odchyleniami wzdłuż każdego z ogonów.

Na podstawie tego wykresu możemy bezpiecznie założyć, że ten zbiór danych ma rozkład normalny.

Przykład 2: Wykres QQ dla danych innych niż normalne

Poniższy kod pokazuje, jak utworzyć wykres QQ dla zbioru danych o rozkładzie wykładniczym z 200 obserwacjami:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create QQ plot
qqnorm(data)
qqline(data)

Widzimy, że punkty znacznie odbiegają od linii przekątnej. To wyraźnie wskazuje, że zbiór danych nie ma rozkładu normalnego.

Powinno to mieć sens, biorąc pod uwagę, że określiliśmy, że dane powinny mieć rozkład wykładniczy.

Wykresy i histogramy QQ

Należy zauważyć, że wykresy QQ umożliwiają wizualne sprawdzenie, czy zbiór danych ma rozkład normalny.

Innym sposobem wizualnego sprawdzenia normalności jest utworzenie histogramu zbioru danych. Jeśli dane na histogramie mają w przybliżeniu kształt krzywej dzwonowej, możemy założyć, że zbiór danych ma rozkład normalny.

Na przykład, oto jak utworzyć histogram dla zbioru danych o wcześniej rozkładzie normalnym:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create a histogram to visualize the distribution
hist(data) 

A oto jak utworzyć histogram dla zbioru danych, który ma rozkład wykładniczy:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create a histogram to visualize the distribution
hist(data) 

Widzimy, że histogram wcale nie przypomina krzywej dzwonowej, co wyraźnie wskazuje, że dane nie mają rozkładu normalnego.

Dodatkowe zasoby

Jakie jest założenie normalności w statystyce?
Jak utworzyć wykres QQ w R
Jak utworzyć wykres QQ w programie Excel
Jak utworzyć wykres QQ w Pythonie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *