Як визначити викиди в spss
Викид — це спостереження, яке аномально віддалено від інших значень у наборі даних. Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.
Цей підручник пояснює, як ідентифікувати та обробляти викиди в SPSS.
Як визначити викиди в SPSS
Припустімо, що у нас є такий набір даних, який показує річний дохід (у тисячах) 15 осіб:
Один із способів визначити, чи присутні викиди, — створити коробкову діаграму для набору даних. Для цього клацніть вкладку «Аналіз» , потім «Описова статистика» , а потім «Дослідження» :
У новому вікні, що з’явиться, перетягніть змінний дохід у поле з написом Список утриманців. Потім клацніть «Статистика» та переконайтеся, що встановлено прапорець «Процентилі» . Потім натисніть Продовжити . Потім натисніть OK .
Після натискання кнопки OK з’явиться вікно:
Якщо на обох кінцях прямокутної діаграми немає кружечків або зірочок, це вказує на відсутність викидів.
SPSS вважає будь-яке значення даних викидом, якщо воно виходить за межі наступних діапазонів:
- 3-й квартиль + 1,5*інтерквартильний діапазон
- 1-й квартиль – 1,5*інтерквартильний діапазон
Ми можемо обчислити інтерквартильний діапазон, взявши різницю між 75-м і 25-м процентилем у рядку, позначеному Tukey Hinges у результаті:
Для цього набору даних інтерквартильний діапазон становить 82 – 36 = 46 . Таким чином, будь-які значення за межами наступних діапазонів вважатимуться викидами:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Очевидно, що дохід не може бути від’ємним, тому нижня межа в цьому прикладі не є корисною. Однак будь-який дохід вище 151 буде вважатися викидом.
Наприклад, скажімо, найбільше значення в нашому наборі даних натомість дорівнює 152. Ось коробковий графік для цього набору даних:
Коло вказує на те, що в даних присутній викид. Число 15 вказує, яке спостереження в наборі даних є викидом.
SPSS також вважає будь-яке значення даних екстремальним викидом , якщо воно виходить за межі наступних діапазонів:
- 3-й квартиль + 3*інтерквартильний діапазон
- 1-й квартиль – 3*інтерквартильний діапазон
Отже, у цьому прикладі будь-які значення, що виходять за межі наступних діапазонів, вважатимуться крайніми викидами:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Наприклад, припустімо, що найбільше значення в нашому наборі даних дорівнює 221. Ось коробковий графік цього набору даних:
Зірочка (*) вказує на те, що в даних присутній крайній викид. Число 15 вказує, яке спостереження в наборі даних є крайнім викидом.
Як працювати з викидами
Якщо у ваших даних присутній викид, у вас є кілька варіантів:
1. Переконайтеся, що викид не є результатом помилки введення даних.
Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо присутній викид, спочатку переконайтеся, що значення введено правильно і що це не помилка.
2. Видаліть викид.
Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.
3. Призначте нове значення викиду .
Якщо викид виявляється результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.
Додаткові ресурси
Якщо ви працюєте з кількома змінними одночасно, ви можете використовувати відстань Махаланобіса для виявлення викидів.