5 примеров выбросов в реальной жизни
Выброс — это точка данных, которая находится аномально далеко от других значений в наборе данных.
Мы часто определяем точку данных как выброс, если она в 1,5 раза превышает межквартильный диапазон выше третьего квартиля или в 1,5 раза превышает межквартильный диапазон ниже первого квартиля набора данных.
Примечание . Межквартильный размах — это разница между третьим квартилем (75-й процентиль) и первым квартилем (25-й процентиль) набора данных.
В следующих сценариях показаны примеры выбросов в реальных ситуациях.
Пример 1: выбросы дохода
Конкретный сценарий, в котором часто появляются выбросы, — это сценарий распределения доходов.
Например, 25-й процентиль (1-й квартал) годового дохода в определенной стране может составлять 15 000 долларов США в год, а 75-й процентиль (3-й квартал) может составлять 120 000 долларов США в год.
Межквартильный диапазон (IQR) будет рассчитываться следующим образом: 120 000 долларов США – 15 000 долларов США = 105 000 долларов США.
Это означает, что любой, чей доход выходит за пределы следующих пределов, будет считаться выбросом:
- Нижний предел : 1 квартал – 1,5*IQR = 15 000 долларов США – 1,5 * 105 000 долларов США = -142 500 долларов США.
- Верхний предел : 3 квартал + 1,5*IQR = 120 000 долларов США + 1,5 * 105 000 долларов США = 277 500 долларов США.
Кто-то вроде Илона Маска, чей собственный капитал исчисляется триллионами долларов, будет считаться выдающимся человеком с точки зрения годового дохода.
Примечание . Значения выбросов, выходящие за нижний предел, не всегда имеют смысл, например, невозможно получить отрицательный годовой доход.
Пример 2: выбросы апноэ
Другой реальный сценарий, в котором часто появляются выбросы, — это апноэ.
Например, 25-й процентиль (Q1) того, как долго люди могут задерживать дыхание, составляет примерно 15 секунд, а 75-й процентиль (Q3) — примерно 75 секунд.
Межквартильный размах (IQR) рассчитывается следующим образом: 75 – 15 = 60.
Это означает, что любой, кто способен задержать дыхание за пределами следующих пределов, будет считаться выбросом:
- Нижний предел : Q1 – 1,5*IQR = 15 – 1,5*60 = -75 секунд.
- Верхний предел : Q3 + 1,5*IQR = 75 + 1,5*60 = 165 секунд.
Все фридайверы , которые могут задерживать дыхание на 10 и более минут, будут считаться выдающимися, поскольку они могут задерживать дыхание гораздо дольше, чем 165 секунд.
Пример 3: Выбросы в размерах животных
Другой реальный сценарий, в котором часто появляются выбросы, — это размер животных.
Например, 25-й процентиль (Q1) роста лошади составляет примерно 5 футов, а 75-й процентиль (Q3) — примерно 5,5 футов.
Межквартильный диапазон (IQR) рассчитывается следующим образом: 5,5 – 5 = 0,5 фута.
Это означает, что любая лошадь, размер которой выходит за следующие пределы, будет считаться отклонением:
- Нижний предел : Q1 – 1,5*IQR = 5 – 1,5*0,5 = 4,25 фута.
- Верхний предел : Q3 + 1,5*IQR = 5 + 1,5*0,5 = 5,75 футов.
Согласно Книге рекордов Гиннеса , рекорд самой высокой лошади всех времен составляет чуть более 7 футов. Поскольку это превышает верхний предел в 5,75 фута, эту лошадь явно следует считать отклоняющейся от нормы.
Пример 4. Выбросы в продажах билетов в кино
Другой реальный сценарий, в котором часто возникают выбросы, — это продажи билетов в кино.
Например, 25-й процентиль (1-й квартал) валовых продаж билетов в кино составляет примерно 2 миллиона долларов, а 75-й процентиль (3-й квартал) — примерно 15 миллионов долларов.
Межквартильный размах (IQR) будет рассчитываться следующим образом: 15 миллионов долларов США – 2 миллиона долларов США = 13 миллионов долларов США.
Это означает, что любой фильм, валовые продажи которого выходят за следующие пределы, будет считаться выбросом:
- Нижний предел : T1 – 1,5*IQR = 2 миллиона долларов США – 1,5*13 миллионов долларов США = -17,5 миллионов долларов США.
- Верхний предел : T3 + 1,5*IQR = 15 миллионов долларов США + 1,5*13 миллионов долларов США = 34,5 миллиона долларов США.
Большинство фильмов «Звездных войн» собрали более 34,5 миллионов долларов, что делает их лидерами по продажам билетов.
Пример 5: Выбросы по очкам, набранным за игру
Еще одна реальная область, в которой часто возникают выбросы, — это профессиональный спорт.
Например, 25-й процентиль (Q1) очков, набранных игроками НБА, составляет примерно 5 очков за игру, а 75-й процентиль (Q3) — примерно 15 очков за игру.
Межквартильный размах (IQR) будет рассчитываться следующим образом: 15 – 5 = 10 баллов.
Это означает, что любой игрок, чье среднее значение выходит за пределы следующих пределов, будет считаться выбросом:
- Нижний предел : Q1 – 1,5*IQR = 5 – 1,5*10 = -10 баллов.
- Верхний предел : Q3 + 1,5*IQR = 15 + 1,5*10 = 30 баллов.
Во многих сезонах НБА самый результативный игрок обычно набирает чуть более 30 очков за игру, что делает его выдающимся игроком.
Дополнительные ресурсы
В следующих руководствах объясняется, как находить выбросы в наборах данных с помощью различного статистического программного обеспечения:
Как найти выбросы в Excel
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS