Межквартильный размах и стандартное отклонение: в чем разница?
Межквартильный размах и стандартное отклонение — это два способа измерения распределения значений в наборе данных.
В этом руководстве представлено краткое объяснение каждой метрики, а также сходства и различия между ними.
Межквартильный размах
Межквартильный диапазон (IQR) набора данных — это разница между первым квартилем (25-й процентиль) и третьим квартилем (75-й процентиль). Он измеряет распределение средних 50% значений.
IQR = Q3 – Q1
Например, предположим, что у нас есть следующий набор данных:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32.
Согласно калькулятору межквартильного диапазона, межквартильный размах (IQR) для этого набора данных рассчитывается следующим образом:
- Т1: 12
- Т3: 26,5
- IQR = Q3 – Q1 = 14,5
Это говорит нам о том, что средние 50% значений в наборе данных имеют отклонение 14,5 .
Среднеквадратичное отклонение
Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения. Он рассчитывается следующим образом:
s = √(Σ(x i – x ) 2 / (n-1))
Например, предположим, что у нас есть следующий набор данных:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32.
Мы можем использовать калькулятор, чтобы определить, что стандартное отклонение этого набора данных составляет 9,25 . Это дает нам представление о том, насколько типичное значение отличается от среднего.
Сходства и различия
Межквартильный размах и стандартное отклонение имеют следующее сходство:
- Обе метрики измеряют распределение значений в наборе данных.
Однако межквартильный размах и стандартное отклонение имеют следующее ключевое отличие:
- На межквартильный размах (IQR) не влияют экстремальные выбросы. Например, чрезвычайно маленькое или чрезвычайно большое значение в наборе данных не повлияет на расчет IQR, поскольку IQR использует только значения 25-го процентиля и 75-го процентиля набора данных.
- На стандартное отклонение влияют экстремальные выбросы. Например, чрезвычайно большое значение в наборе данных приведет к гораздо большему стандартному отклонению, поскольку стандартное отклонение использует в своей формуле каждое значение в наборе данных.
Когда использовать каждый
Вам следует использовать межквартильный диапазон для измерения распределения значений в наборе данных при наличии экстремальных выбросов.
И наоборот, вам следует использовать стандартное отклонение для измерения распределения значений, когда нет крайних выбросов.
Чтобы проиллюстрировать почему, рассмотрим следующий набор данных:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32.
Ранее в статье мы рассчитали следующие метрики для этого набора данных:
- IQR: 14,5
- Стандартное отклонение: 9,25
Однако подумайте, имел ли набор данных экстремальный выброс:
Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378.
Мы могли бы использовать калькулятор, чтобы найти следующие показатели для этого набора данных:
- IQR: 15
- Стандартное отклонение: 85,02
Обратите внимание, что межквартильный размах практически не меняется при наличии выброса, тогда как стандартное отклонение увеличивается с 9,25 до 85,02.
Дополнительные ресурсы
Меры центральной тенденции: определение и примеры
Меры дисперсии: определение и примеры
Как найти выбросы, используя межквартильный размах