Как winsorize данные: определение и примеры


Винсоризация данных означает установку крайних выбросов, равных указанному процентилю данных.

Например, 90%-ная винсоризация устанавливает все наблюдения выше 95-го процентиля равными значению 95-го процентиля, а все наблюдения ниже 5-го процентиля равны значению 5-го процентиля.

Действительно, винсоризация данных означает изменение крайних значений набора данных на менее экстремальные значения.

Пример: как Winsorize данные

Предположим, у нас есть следующий набор данных:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Чтобы выполнить 90%-ную винсоризацию этого набора данных, мы сначала должны найти 5-й процентиль и 95-й процентиль, которые оказываются такими:

  • 5-й процентиль: 12,35
  • 95-й процентиль: 92,05

Затем мы бы установили все значения меньше 12,35 равными 12,35, а все значения больше 92,05 равны 92,05:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

В этом случае значение 3 стало 12,35 , а значение 98 стало 92,05 .

Зачем Winsorize данные?

Среднее значение и стандартное отклонение — это два распространенных метода измерения местоположения центра набора данных и распределения наблюдений в наборе данных соответственно.

Однако оба эти показателя могут подвергаться влиянию крайних выбросов. Таким образом, винсоризация данных позволяет нам определять экстремальные выбросы, равные менее экстремальным значениям.

Это часто позволяет нам получить более точное представление о среднем и стандартном отклонении набора данных.

Сливовое золото Винсоризе

Другой распространенный способ борьбы с выбросами — удалить их из набора данных, что означает их полное удаление.

Например, рассмотрим предыдущий набор данных:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Если бы мы хотели уменьшить значения ниже 5-го процентиля или выше 95-го процентиля, мы бы просто удалили значения 3 и 98 .

Вот несколько практических правил, когда использовать нарезку или винсоризацию:

Обрезка: имеет смысл обрезать значения данных, когда некоторые значения кажутся совершенно необоснованными, т. е. являются результатом ошибки ввода данных.

Винсоризация. Винсоризация данных имеет смысл, когда мы хотим сохранить экстремальные наблюдения, но не хотим воспринимать их слишком буквально.

Меры предосторожности относительно винсоризации данных

Вот некоторые вещи, которые следует учитывать при принятии решения о получении данных:

1. Если нет крайних выбросов, винсоризация данных лишь незначительно изменит самые маленькие и самые большие значения. В целом это не очень хорошая идея, поскольку означает, что мы просто изменяем значения данных с единственной целью — изменить их.

2. Выбросы могут представлять интересные крайние случаи в данных. Поэтому, прежде чем редактировать выбросы, рекомендуется внимательно изучить их и понять, что могло их вызвать.

3. Вы должны решить, следует ли обрабатывать данные после сбора данных, а не до этого. Прежде чем принимать решение о выигрыше, вам следует посмотреть, есть ли на самом деле какие-либо крайние отклонения. Если крайних выбросов нет, винсоризация может быть ненужной.

Учебник: Winsorize данные в Excel

В этом руководстве приведен пошаговый пример того, как преобразовать набор данных в Excel.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *