Межквартильный размах и стандартное отклонение: в чем разница?


Межквартильный размах и стандартное отклонение — это два способа измерения распределения значений в наборе данных.

В этом руководстве представлено краткое объяснение каждой метрики, а также сходства и различия между ними.

Межквартильный размах

Межквартильный диапазон (IQR) набора данных — это разница между первым квартилем (25-й процентиль) и третьим квартилем (75-й процентиль). Он измеряет распределение средних 50% значений.

IQR = Q3 – Q1

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32.

Согласно калькулятору межквартильного диапазона, межквартильный размах (IQR) для этого набора данных рассчитывается следующим образом:

  • Т1: 12
  • Т3: 26,5
  • IQR = Q3 – Q1 = 14,5

Это говорит нам о том, что средние 50% значений в наборе данных имеют отклонение 14,5 .

Среднеквадратичное отклонение

Стандартное отклонение набора данных — это способ измерения типичного отклонения отдельных значений от среднего значения. Он рассчитывается следующим образом:

s = √(Σ(x ix ) 2 / (n-1))

Например, предположим, что у нас есть следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32.

Мы можем использовать калькулятор, чтобы определить, что стандартное отклонение этого набора данных составляет 9,25 . Это дает нам представление о том, насколько типичное значение отличается от среднего.

Сходства и различия

Межквартильный размах и стандартное отклонение имеют следующее сходство:

  • Обе метрики измеряют распределение значений в наборе данных.

Однако межквартильный размах и стандартное отклонение имеют следующее ключевое отличие:

  • На межквартильный размах (IQR) не влияют экстремальные выбросы. Например, чрезвычайно маленькое или чрезвычайно большое значение в наборе данных не повлияет на расчет IQR, поскольку IQR использует только значения 25-го процентиля и 75-го процентиля набора данных.
  • На стандартное отклонение влияют экстремальные выбросы. Например, чрезвычайно большое значение в наборе данных приведет к гораздо большему стандартному отклонению, поскольку стандартное отклонение использует в своей формуле каждое значение в наборе данных.

Когда использовать каждый

Вам следует использовать межквартильный диапазон для измерения распределения значений в наборе данных при наличии экстремальных выбросов.

И наоборот, вам следует использовать стандартное отклонение для измерения распределения значений, когда нет крайних выбросов.

Чтобы проиллюстрировать почему, рассмотрим следующий набор данных:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32.

Ранее в статье мы рассчитали следующие метрики для этого набора данных:

  • IQR: 14,5
  • Стандартное отклонение: 9,25

Однако подумайте, имел ли набор данных экстремальный выброс:

Набор данных: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378.

Мы могли бы использовать калькулятор, чтобы найти следующие показатели для этого набора данных:

  • IQR: 15
  • Стандартное отклонение: 85,02

Обратите внимание, что межквартильный размах практически не меняется при наличии выброса, тогда как стандартное отклонение увеличивается с 9,25 до 85,02.

Дополнительные ресурсы

Меры центральной тенденции: определение и примеры
Меры дисперсии: определение и примеры
Как найти выбросы, используя межквартильный размах

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *