Jak używać wykresów qq do sprawdzania normalności
Wykres QQ, skrót od „kwantyl-kwantyl”, służy do oceny, czy zbiór danych potencjalnie pochodzi z rozkładu teoretycznego.
W większości przypadków ten typ wykresu służy do określenia, czy zbiór danych ma rozkład normalny.
Jeśli dane mają rozkład normalny, punkty na wykresie QQ będą leżeć na prostej ukośnej.
I odwrotnie, im bardziej punkty na wykresie odbiegają od prostej linii ukośnej, tym mniejsze jest prawdopodobieństwo, że zbiór danych będzie miał rozkład normalny.
Poniższe przykłady pokazują, jak tworzyć wykresy QQ w R, aby sprawdzić normalność.
Przykład 1: Wykres QQ dla normalnych danych
Poniższy kod pokazuje, jak wygenerować zbiór danych o rozkładzie normalnym zawierający 200 obserwacji i utworzyć wykres QQ dla zbioru danych w R:
#make this example reproducible set. seeds (1) #create some fake data that follows a normal distribution data <- rnorm(200) #create QQ plot qqnorm(data) qqline(data)
Widzimy, że punkty leżą głównie wzdłuż prostej linii ukośnej z niewielkimi odchyleniami wzdłuż każdego z ogonów.
Na podstawie tego wykresu możemy bezpiecznie założyć, że ten zbiór danych ma rozkład normalny.
Przykład 2: Wykres QQ dla danych innych niż normalne
Poniższy kod pokazuje, jak utworzyć wykres QQ dla zbioru danych o rozkładzie wykładniczym z 200 obserwacjami:
#make this example reproducible set. seeds (1) #create some fake data that follows an exponential distribution data <- rexp(200, rate=3) #create QQ plot qqnorm(data) qqline(data)
Widzimy, że punkty znacznie odbiegają od linii przekątnej. To wyraźnie wskazuje, że zbiór danych nie ma rozkładu normalnego.
Powinno to mieć sens, biorąc pod uwagę, że określiliśmy, że dane powinny mieć rozkład wykładniczy.
Wykresy i histogramy QQ
Należy zauważyć, że wykresy QQ umożliwiają wizualne sprawdzenie, czy zbiór danych ma rozkład normalny.
Innym sposobem wizualnego sprawdzenia normalności jest utworzenie histogramu zbioru danych. Jeśli dane na histogramie mają w przybliżeniu kształt krzywej dzwonowej, możemy założyć, że zbiór danych ma rozkład normalny.
Na przykład, oto jak utworzyć histogram dla zbioru danych o wcześniej rozkładzie normalnym:
#make this example reproducible set. seeds (1) #create some fake data that follows a normal distribution data <- rnorm(200) #create a histogram to visualize the distribution hist(data)
A oto jak utworzyć histogram dla zbioru danych, który ma rozkład wykładniczy:
#make this example reproducible set. seeds (1) #create some fake data that follows an exponential distribution data <- rexp(200, rate=3) #create a histogram to visualize the distribution hist(data)
Widzimy, że histogram wcale nie przypomina krzywej dzwonowej, co wyraźnie wskazuje, że dane nie mają rozkładu normalnego.
Dodatkowe zasoby
Jakie jest założenie normalności w statystyce?
Jak utworzyć wykres QQ w R
Jak utworzyć wykres QQ w programie Excel
Jak utworzyć wykres QQ w Pythonie