Як використовувати графіки qq для перевірки нормальності


Діаграма QQ, скорочення від «квантиль-квантиль», використовується для оцінки того, чи набір даних потенційно походить із теоретичного розподілу.

У більшості випадків цей тип графіка використовується, щоб визначити, чи відповідає набір даних нормальному розподілу.

Якщо дані розподілені нормально, точки на графіку QQ лежатимуть на прямій діагональній лінії.

І навпаки, чим більше точки на графіку відхиляються від прямої діагональної лінії, тим менша ймовірність того, що набір даних буде відповідати нормальному розподілу.

У наступних прикладах показано, як створити діаграми QQ у R для перевірки нормальності.

Приклад 1: графік QQ для нормальних даних

Наступний код показує, як створити нормально розподілений набір даних із 200 спостереженнями та створити діаграму QQ для набору даних у R:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create QQ plot
qqnorm(data)
qqline(data)

Ми бачимо, що точки лежать в основному вздовж прямої діагональної лінії з деякими незначними відхиленнями вздовж кожного з хвостів.

На основі цього графіка можна сміливо припустити, що цей набір даних розподілений нормально.

Приклад 2: графік QQ для ненормальних даних

У наступному коді показано, як створити графік QQ для набору даних, який відповідає експоненціальному розподілу з 200 спостереженнями:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create QQ plot
qqnorm(data)
qqline(data)

Бачимо, що точки значно відхиляються від діагональної лінії. Це чітко вказує на те, що набір даних не розподіляється нормально.

Це мало б мати сенс, враховуючи, що ми вказали, що дані мають відповідати експоненціальному розподілу.

QQ графіки та гістограми

Слід зазначити, що графіки QQ – це спосіб візуально перевірити, чи відповідає набір даних нормальному розподілу.

Ще один спосіб візуально перевірити нормальність — створити гістограму набору даних. Якщо дані на гістограмі приблизно повторюють форму дзвоноподібної кривої, тоді можна вважати, що набір даних розподілено нормально.

Наприклад, ось як створити гістограму для раніше нормально розподіленого набору даних:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create a histogram to visualize the distribution
hist(data) 

І ось як створити гістограму для набору даних, який відповідає експоненціальному попередньому розподілу:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create a histogram to visualize the distribution
hist(data) 

Ми бачимо, що гістограма зовсім не виглядає як дзвоноподібна крива, що чітко вказує на те, що дані не відповідають нормальному розподілу.

Додаткові ресурси

Що таке припущення нормальності в статистиці?
Як створити діаграму QQ у R
Як створити діаграму QQ в Excel
Як створити графік QQ у Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *