5 примеров выбросов в реальной жизни


Выброс — это точка данных, которая находится аномально далеко от других значений в наборе данных.

Мы часто определяем точку данных как выброс, если она в 1,5 раза превышает межквартильный диапазон выше третьего квартиля или в 1,5 раза превышает межквартильный диапазон ниже первого квартиля набора данных.

Примечание . Межквартильный размах — это разница между третьим квартилем (75-й процентиль) и первым квартилем (25-й процентиль) набора данных.

В следующих сценариях показаны примеры выбросов в реальных ситуациях.

Пример 1: выбросы дохода

Конкретный сценарий, в котором часто появляются выбросы, — это сценарий распределения доходов.

Например, 25-й процентиль (1-й квартал) годового дохода в определенной стране может составлять 15 000 долларов США в год, а 75-й процентиль (3-й квартал) может составлять 120 000 долларов США в год.

Межквартильный диапазон (IQR) будет рассчитываться следующим образом: 120 000 долларов США – 15 000 долларов США = 105 000 долларов США.

Это означает, что любой, чей доход выходит за пределы следующих пределов, будет считаться выбросом:

  • Нижний предел : 1 квартал – 1,5*IQR = 15 000 долларов США – 1,5 * 105 000 долларов США = -142 500 долларов США.
  • Верхний предел : 3 квартал + 1,5*IQR = 120 000 долларов США + 1,5 * 105 000 долларов США = 277 500 долларов США.

Кто-то вроде Илона Маска, чей собственный капитал исчисляется триллионами долларов, будет считаться выдающимся человеком с точки зрения годового дохода.

Примечание . Значения выбросов, выходящие за нижний предел, не всегда имеют смысл, например, невозможно получить отрицательный годовой доход.

Пример 2: выбросы апноэ

Другой реальный сценарий, в котором часто появляются выбросы, — это апноэ.

Например, 25-й процентиль (Q1) того, как долго люди могут задерживать дыхание, составляет примерно 15 секунд, а 75-й процентиль (Q3) — примерно 75 секунд.

Межквартильный размах (IQR) рассчитывается следующим образом: 75 – 15 = 60.

Это означает, что любой, кто способен задержать дыхание за пределами следующих пределов, будет считаться выбросом:

  • Нижний предел : Q1 – 1,5*IQR = 15 – 1,5*60 = -75 секунд.
  • Верхний предел : Q3 + 1,5*IQR = 75 + 1,5*60 = 165 секунд.

Все фридайверы , которые могут задерживать дыхание на 10 и более минут, будут считаться выдающимися, поскольку они могут задерживать дыхание гораздо дольше, чем 165 секунд.

Пример 3: Выбросы в размерах животных

Другой реальный сценарий, в котором часто появляются выбросы, — это размер животных.

Например, 25-й процентиль (Q1) роста лошади составляет примерно 5 футов, а 75-й процентиль (Q3) — примерно 5,5 футов.

Межквартильный диапазон (IQR) рассчитывается следующим образом: 5,5 – 5 = 0,5 фута.

Это означает, что любая лошадь, размер которой выходит за следующие пределы, будет считаться отклонением:

  • Нижний предел : Q1 – 1,5*IQR = 5 – 1,5*0,5 = 4,25 фута.
  • Верхний предел : Q3 + 1,5*IQR = 5 + 1,5*0,5 = 5,75 футов.

Согласно Книге рекордов Гиннеса , рекорд самой высокой лошади всех времен составляет чуть более 7 футов. Поскольку это превышает верхний предел в 5,75 фута, эту лошадь явно следует считать отклоняющейся от нормы.

Пример 4. Выбросы в продажах билетов в кино

Другой реальный сценарий, в котором часто возникают выбросы, — это продажи билетов в кино.

Например, 25-й процентиль (1-й квартал) валовых продаж билетов в кино составляет примерно 2 миллиона долларов, а 75-й процентиль (3-й квартал) — примерно 15 миллионов долларов.

Межквартильный размах (IQR) будет рассчитываться следующим образом: 15 миллионов долларов США – 2 миллиона долларов США = 13 миллионов долларов США.

Это означает, что любой фильм, валовые продажи которого выходят за следующие пределы, будет считаться выбросом:

  • Нижний предел : T1 – 1,5*IQR = 2 миллиона долларов США – 1,5*13 миллионов долларов США = -17,5 миллионов долларов США.
  • Верхний предел : T3 + 1,5*IQR = 15 миллионов долларов США + 1,5*13 миллионов долларов США = 34,5 миллиона долларов США.

Большинство фильмов «Звездных войн» собрали более 34,5 миллионов долларов, что делает их лидерами по продажам билетов.

Пример 5: Выбросы по очкам, набранным за игру

Еще одна реальная область, в которой часто возникают выбросы, — это профессиональный спорт.

Например, 25-й процентиль (Q1) очков, набранных игроками НБА, составляет примерно 5 очков за игру, а 75-й процентиль (Q3) — примерно 15 очков за игру.

Межквартильный размах (IQR) будет рассчитываться следующим образом: 15 – 5 = 10 баллов.

Это означает, что любой игрок, чье среднее значение выходит за пределы следующих пределов, будет считаться выбросом:

  • Нижний предел : Q1 – 1,5*IQR = 5 – 1,5*10 = -10 баллов.
  • Верхний предел : Q3 + 1,5*IQR = 15 + 1,5*10 = 30 баллов.

Во многих сезонах НБА самый результативный игрок обычно набирает чуть более 30 очков за игру, что делает его выдающимся игроком.

Дополнительные ресурсы

В следующих руководствах объясняется, как находить выбросы в наборах данных с помощью различного статистического программного обеспечения:

Как найти выбросы в Excel
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *