Критерій шовене: визначення та приклад
Викид — це спостереження , яке аномально віддалено від інших значень у наборі даних. Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.
Один із способів ідентифікації викидів у наборі даних — використання критерію Шовене , який використовує такий процес:
1. Для кожного окремого значення x i у наборі даних обчисліть відхилення від середнього таким чином:
Відхилення = |x i – x | /с
де x — вибіркове середнє значення, а s — вибіркове стандартне відхилення.
2. Порівняйте відхилення кожного окремого значення від критичних значень у таблиці критеріїв Шовене нижче. Для окремих значень даних з відхиленнями, більшими, ніж ті, що містяться в таблиці, повідомте ці значення даних як викиди.
Критерій Шовене: приклад
Припустимо, ми маємо такий набір даних із 15 значень:
Середнє значення вибірки для цього набору даних становить x = 17,067 , а стандартне відхилення вибірки – s = 10,096 . Для кожного окремого значення даних ми можемо розрахувати його відхилення наступним чином:
Відхилення = |x i – x | /с
Наприклад:
- Перше значення даних матиме відхилення |4 – 17,067| / 10 096 = 1 294 .
- Перше значення даних матиме відхилення |6 – 17,067| / 10,096 = 1,096 .
І так далі.
Ми можемо використовувати ту саму формулу для розрахунку відхилення кожного окремого значення даних:
Потім ми можемо звернутися до таблиці критеріїв Шовене та зауважити, що критичне значення, яке відповідає розміру вибірки n=15, становить 2,128 . Таким чином, будь-яке значення з відхиленням більше 2,128 можна вважати викидом.
Виявляється, значення 42 має відхилення більше 2,128:
Таким чином, значення 42 є єдиним викидом у цьому наборі даних.
Застереження щодо використання критерію Шовене
Критерій Шовене передбачає, що значення в наборі даних розподілені нормально . Якщо це припущення не виконується, використання критерію Шовене для визначення викидів, ймовірно, недійсне.
Якщо ви використовуєте цей метод і виявите, що значення є викидом, ви повинні спочатку переконатися, що значення не є результатом помилки введення даних. Іноді дані просто вводяться неправильно.
Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Тільки не забудьте згадати, що ви видалили викид, повідомляючи про свої результати.
Крім того, цей метод слід використовувати лише один раз для певного набору даних. Наприклад, припустімо, що ми використовуємо цей критерій, щоб визначити значення 42 як викид у попередньому прикладі та видалити це значення з набору даних.
Тоді ми не повинні перераховувати вибіркове середнє значення та вибіркове стандартне відхилення, а знову обчислювати відхилення, щоб знайти більше викидів.