Критерий шовене: определение и пример
Выброс — это наблюдение , которое аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
Одним из способов выявления выбросов в наборе данных является использование критерия Шовене , который использует следующий процесс:
1. Для каждого отдельного значения x i в наборе данных рассчитайте отклонение от среднего значения следующим образом:
Отклонение = |x i – x | /с
где x — выборочное среднее значение, а s — выборочное стандартное отклонение.
2. Сравните отклонения каждого отдельного значения с критическими значениями в таблице критериев Шовене ниже. Для отдельных значений данных с отклонениями, превышающими значения, указанные в таблице, сообщите об этих значениях данных как о выбросах.
Критерий Шовене: пример
Предположим, у нас есть следующий набор данных из 15 значений:
Среднее значение выборки для этого набора данных составляет x = 17,067 , а стандартное отклонение выборки составляет s = 10,096 . Для каждого отдельного значения данных мы можем рассчитать его отклонение следующим образом:
Отклонение = |x i – x | /с
Например:
- Первое значение данных будет иметь отклонение |4 – 17,067| / 10 096 = 1 294 .
- Первое значение данных будет иметь отклонение |6 – 17,067| / 10,096 = 1,096 .
И так далее.
Мы можем использовать ту же формулу для расчета отклонения каждого отдельного значения данных:
Затем мы можем обратиться к таблице критериев Шовене и отметить, что критическое значение, соответствующее размеру выборки n=15, составляет 2,128 . Таким образом, любое значение с отклонением более 2,128 можно считать выбросом.
Оказывается, значение 42 имеет отклонение больше 2,128:
Таким образом, значение 42 является единственным выбросом в этом наборе данных.
Меры предосторожности при использовании критерия Шовене
Критерий Шовене предполагает, что значения в наборе данных распределены нормально . Если это предположение не выполняется, использование критерия Шовене для выявления выбросов, скорее всего, окажется недействительным.
Если вы используете этот метод и обнаруживаете, что значение является выбросом, вы должны сначала убедиться, что это значение не является результатом ошибки ввода данных. Иногда данные просто вводятся неправильно.
Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть, что вы удалили выбросы при сообщении результатов.
Кроме того, этот метод следует использовать только один раз для данного набора данных. Например, предположим, что мы используем этот критерий, чтобы определить значение 42 как выброс в предыдущем примере и удалить это значение из набора данных.
В этом случае нам не следует пересчитывать выборочное среднее и выборочное стандартное отклонение, а рассчитывать отклонения снова, чтобы найти больше выбросов.