Нетипичные значения (выбросы)
В этой статье объясняется, что такое выбросы и как они рассчитываются. Кроме того, вы можете рассчитать выбросы для любой выборки данных с помощью онлайн-калькулятора.
Что такое выбросы?
В статистике выбросы , также называемые выбросами или выбросами , — это значения, которые значительно отличаются от остального набора данных. Другими словами, выброс — это аномальное значение, резко отличающееся от остальных значений в выборке.
Важно выявлять выбросы в выборке, поскольку они могут существенно повлиять на расчет статистических показателей.
Например, если у нас есть ряд данных [1, 3, 5, 2, 79, 4, 8, 6], число 79 явно является выбросом. Потому что его значение чрезвычайно выше остальных данных. В этом случае среднее значение, включая выброс, равно 13,5, а среднее значение без выброса будет 4,14. Как видите, один выброс уже существенно влияет на результат статистического измерения.
Обычно выбросы легко отличить на диаграммах рассеяния, поскольку они изолированы от остальных данных. Посмотрите на следующую диаграмму рассеяния: выброс сильно отделен от остальных значений:
👉 Вы можете использовать калькулятор ниже, чтобы найти выбросы для любого набора данных.
Как рассчитать выбросы
Чтобы вычислить выбросы на основе выборки данных, необходимо выполнить следующие шаги:
- Рассчитайте квартили набора данных.
- Рассчитайте межквартильный размах данных.
- Атипичными значениями (выбросами) будут считаться значения, соответствующие одному из следующих условий:
- Значение меньше первого квартиля минус 1,5 межквартильного размаха.
➤ См.: как рассчитать квартили
➤ См.: как рассчитать межквартильный размах
На следующей диаграмме вы можете увидеть два выброса в соответствии с этим критерием, представленные графически:
Примечание. Имейте в виду, что существует несколько критериев для определения пределов, за которыми данные считаются выбросами. В этой статье критерий теста Тьюки был взят за основу, поскольку он наиболее часто используется.
Пример выбросов
Что касается определения выброса, в этом разделе мы увидим практический пример того, как идентифицировать выбросы в ряду данных.
- Рассчитайте выбросы или выбросы из следующего набора статистических данных.
Сначала мы вычисляем три квартиля набора данных:
Найдя три квартиля, мы находим межквартильный размах, вычитая квартиль 3 минус квартиль 1:
А теперь посчитаем пределы, установленные выбросами. Для этого мы используем формулы, описанные в разделе выше:
Поэтому, если какое-либо из значений меньше 3,16, это выброс. Аналогично, если значение больше 5,56, это также выброс.
В заключение, в данном случае мы имеем два крайних значения, поскольку 3,02 меньше 3,16, а 5,71 больше 5,56.
Калькулятор выбросов
Введите набор статистических данных в следующий калькулятор, чтобы вычислить выбросы, если таковые имеются. Данные должны быть разделены пробелом и введены с использованием точки в качестве десятичного разделителя.
Причины выбросов
Существует несколько возможных причин выбросов, наиболее распространенными из которых являются:
- Устройство, которое использовалось для проведения измерений, сломалось или попало в аварию.
- Измеряемая деталь имела дефект по ненормальной причине.
- Произошла ошибка при передаче или транскрипции данных.
- Произошла человеческая ошибка. Независимо от принятых мер предосторожности, человеческие ошибки не являются полностью неизбежными, и поэтому аномальные значения все же могут существовать.
Это наиболее распространенные причины, но очевидно, что причина может быть чем угодно. Аналогичным образом необходимо принять во внимание, что когда статистическое исследование проводится с многочисленными наблюдениями, появление некоторых выбросов является нормальным.
Что делать с выбросами
Когда мы сталкиваемся с выбросом, общий вопрос заключается в том, что нам с ним делать. Следует ли удалять выбросы из выборки?
Считается, что выбросы всегда следует исключать, поскольку они представляют собой данные, не похожие на остальную часть набора. Однако даже несмотря на то, что выбросы сильно влияют на результаты некоторых статистических показателей, это не означает, что их всегда следует устранять.
В общем, выбросы следует удалять только в том случае, если мы знаем, что причина аномалии действительно обоснована и, следовательно, эти выбросы представляют собой наблюдения, которые не соответствуют тому, что изучается.
Это особенно важно при небольших размерах выборки, поскольку тогда экстремальные значения сильнее влияют на статистические показатели.
Например, если для проведения контроля качества измеряется длина части продукта, то логично, что если вдруг появится другой вид продукта и будет измерена та же часть, то измеренное значение будет сильно отличаться от предыдущих и, вероятно, будет быть выбросом. В этом случае выброс можно исключить, поскольку его причина известна и известно, что измеренные данные не являются частью генеральной совокупности, предназначенной для анализа.