Як визначити викиди в spss


Викид — це спостереження, яке аномально віддалено від інших значень у наборі даних. Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.

Цей підручник пояснює, як ідентифікувати та обробляти викиди в SPSS.

Як визначити викиди в SPSS

Припустімо, що у нас є такий набір даних, який показує річний дохід (у тисячах) 15 осіб:

Один із способів визначити, чи присутні викиди, — створити коробкову діаграму для набору даних. Для цього клацніть вкладку «Аналіз» , потім «Описова статистика» , а потім «Дослідження» :

У новому вікні, що з’явиться, перетягніть змінний дохід у поле з написом Список утриманців. Потім клацніть «Статистика» та переконайтеся, що встановлено прапорець «Процентилі» . Потім натисніть Продовжити . Потім натисніть OK .

Після натискання кнопки OK з’явиться вікно:

Boxplot у SPSS

Якщо на обох кінцях прямокутної діаграми немає кружечків або зірочок, це вказує на відсутність викидів.

SPSS вважає будь-яке значення даних викидом, якщо воно виходить за межі наступних діапазонів:

  • 3-й квартиль + 1,5*інтерквартильний діапазон
  • 1-й квартиль – 1,5*інтерквартильний діапазон

Ми можемо обчислити інтерквартильний діапазон, взявши різницю між 75-м і 25-м процентилем у рядку, позначеному Tukey Hinges у результаті:

Міжквартильний діапазон шарнірів Тьюкі в SPSS

Для цього набору даних інтерквартильний діапазон становить 82 – 36 = 46 . Таким чином, будь-які значення за межами наступних діапазонів вважатимуться викидами:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Очевидно, що дохід не може бути від’ємним, тому нижня межа в цьому прикладі не є корисною. Однак будь-який дохід вище 151 буде вважатися викидом.

Наприклад, скажімо, найбільше значення в нашому наборі даних натомість дорівнює 152. Ось коробковий графік для цього набору даних:

Boxplot із викидом у SPSS

Коло вказує на те, що в даних присутній викид. Число 15 вказує, яке спостереження в наборі даних є викидом.

SPSS також вважає будь-яке значення даних екстремальним викидом , якщо воно виходить за межі наступних діапазонів:

  • 3-й квартиль + 3*інтерквартильний діапазон
  • 1-й квартиль – 3*інтерквартильний діапазон

Отже, у цьому прикладі будь-які значення, що виходять за межі наступних діапазонів, вважатимуться крайніми викидами:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Наприклад, припустімо, що найбільше значення в нашому наборі даних дорівнює 221. Ось коробковий графік цього набору даних:

Екстремальний викид у коробковій діаграмі в SPSS

Зірочка (*) вказує на те, що в даних присутній крайній викид. Число 15 вказує, яке спостереження в наборі даних є крайнім викидом.

Як працювати з викидами

Якщо у ваших даних присутній викид, у вас є кілька варіантів:

1. Переконайтеся, що викид не є результатом помилки введення даних.

Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо присутній викид, спочатку переконайтеся, що значення введено правильно і що це не помилка.

2. Видаліть викид.

Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.

3. Призначте нове значення викиду .

Якщо викид виявляється результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.

Додаткові ресурси

Якщо ви працюєте з кількома змінними одночасно, ви можете використовувати відстань Махаланобіса для виявлення викидів.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *