Як winsorize даних: визначення та приклади


Winsorizing даних означає встановлення крайніх викидів, що дорівнюють заданому процентилю даних.

Наприклад, 90% winsorization встановлює всі спостереження вище 95-го процентиля рівними значенню 95-го процентиля, а всі спостереження нижче 5-го процентиля дорівнює значенню 5-го процентиля.

Дійсно, виграш даних означає зміну екстремальних значень набору даних на менш екстремальні значення.

Приклад: Як Winsorize Data

Припустимо, ми маємо наступний набір даних:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Щоб виконати 90% winsorization для цього набору даних, ми повинні спочатку знайти 5-й процентиль і 95-й процентиль, які виявляються такими:

  • 5-й процентиль: 12,35
  • 95 процентиль: 92,05

Потім ми встановимо всі значення, менші за 12,35, рівними 12,35, а всі значення, більші за 92,05, рівними 92,05:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

У цьому випадку значення 3 стало 12,35 , а значення 98 стало 92,05 .

Навіщо Winsorize даних?

Середнє значення та стандартне відхилення є двома поширеними методами вимірювання розташування центру набору даних і розподілу спостережень у наборі даних відповідно.

Однак на обидва ці показники можуть впливати екстремальні викиди. Таким чином, winsorizing даних дозволяє нам визначити крайні викиди, що дорівнюють менш екстремальним значенням.

Це часто дозволяє нам отримати більш точне уявлення про середнє значення та стандартне відхилення набору даних.

Слива золото winsorize

Ще один поширений спосіб боротьби з викидами — видалити їх із набору даних, що означає їх повне видалення.

Наприклад, розглянемо попередній набір даних:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

Якби ми хотіли зменшити значення нижче 5-го процентиля або вище 95-го процентиля, ми просто видалили б значення 3 і 98 .

Ось кілька емпіричних правил щодо того, коли використовувати нарізку чи виграш:

Обрізка: має сенс обрізати значення даних, коли деякі значення здаються абсолютно нерозумними, тобто вони є результатом помилки введення даних.

Winsorization: має сенс використовувати Winsorization дані, коли ми хочемо зберегти спостереження, які є крайніми, але не хочемо сприймати їх надто буквально.

Запобіжні заходи щодо winsorization даних

Ось деякі речі, про які слід пам’ятати, вирішуючи отримати дані:

1. Якщо немає екстремальних викидів, виграш даних лише незначно змінить найменше та найбільше значення. Загалом це не гарна ідея, оскільки це означає, що ми просто змінюємо значення даних з єдиною метою – змінити їх.

2. Викиди можуть представляти цікаві крайові випадки в даних. Отже, перш ніж редагувати викиди, доцільно придивитися до них уважніше, щоб побачити, що могло їх спричинити.

3. Ви повинні вирішити, чи потрібно winsorize дані після збору даних, а не раніше. Ви повинні перевірити, чи насправді є якісь екстремальні відхилення, перш ніж прийняти рішення про виграш. Якщо екстремальних викидів немає, winsorization може бути непотрібним.

Підручник: Winsorize дані в Excel

Зверніться до цього підручника , щоб отримати покроковий приклад того, як winsorize набір даних у Excel.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *