Как использовать графики qq для проверки нормальности


График QQ, сокращенно от «квантиль-квантиль», используется для оценки того, потенциально ли набор данных является результатом теоретического распределения.

В большинстве случаев этот тип графика используется для определения того, соответствует ли набор данных нормальному распределению.

Если данные распределены нормально, точки на графике QQ будут лежать на прямой диагональной линии.

И наоборот, чем сильнее точки на графике отклоняются от прямой диагональной линии, тем меньше вероятность того, что набор данных будет следовать нормальному распределению.

В следующих примерах показано, как создавать графики QQ в R для проверки нормальности.

Пример 1: График QQ для нормальных данных

Следующий код показывает, как сгенерировать нормально распределенный набор данных с 200 наблюдениями и создать график QQ для набора данных в R:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create QQ plot
qqnorm(data)
qqline(data)

Мы видим, что точки лежат преимущественно вдоль прямой диагональной линии с небольшими отклонениями вдоль каждого из хвостов.

Основываясь на этом графике, мы можем с уверенностью предположить, что этот набор данных нормально распределен.

Пример 2: График QQ для ненормальных данных

Следующий код показывает, как создать график QQ для набора данных, который соответствует экспоненциальному распределению с 200 наблюдениями:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create QQ plot
qqnorm(data)
qqline(data)

Мы видим, что точки значительно отклоняются от диагональной линии. Это ясно указывает на то, что набор данных обычно не распределяется.

Это должно иметь смысл, учитывая, что мы указали, что данные должны следовать экспоненциальному распределению.

Графики QQ и гистограммы

Следует отметить, что графики QQ — это способ визуально проверить, соответствует ли набор данных нормальному распределению.

Другой способ визуально проверить нормальность — создать гистограмму набора данных. Если данные примерно соответствуют форме колоколообразной кривой на гистограмме, то мы можем предположить, что набор данных нормально распределен.

Например, вот как создать гистограмму для ранее нормально распределенного набора данных:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows a normal distribution
data <- rnorm(200)

#create a histogram to visualize the distribution
hist(data) 

А вот как создать гистограмму для набора данных, которая следует экспоненциальному априорному распределению:

 #make this example reproducible
set. seeds (1)

#create some fake data that follows an exponential distribution
data <- rexp(200, rate=3)

#create a histogram to visualize the distribution
hist(data) 

Мы видим, что гистограмма совсем не похожа на колоколообразную кривую, что ясно указывает на то, что данные не подчиняются нормальному распределению.

Дополнительные ресурсы

Что такое предположение нормальности в статистике?
Как создать график QQ в R
Как создать график QQ в Excel
Как создать график QQ в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *