Как идентифицировать выбросы в spss


Выброс — это наблюдение, которое аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

В этом руководстве объясняется, как идентифицировать и обрабатывать выбросы в SPSS.

Как идентифицировать выбросы в SPSS

Предположим, у нас есть следующий набор данных, показывающий годовой доход (в тысячах) 15 человек:

Один из способов определить наличие выбросов — создать коробчатую диаграмму для набора данных. Для этого нажмите вкладку «Анализ» , затем «Описательная статистика» , затем «Исследовать» :

В появившемся новом окне перетащите переменный доход в поле «Список иждивенцев». Затем нажмите «Статистика» и убедитесь, что установлен флажок рядом с «Процентили» . Затем нажмите Продолжить . Затем нажмите ОК .

Как только вы нажмете «ОК» , появится коробчатая диаграмма:

Боксплот в SPSS

Если на обоих концах диаграммы нет кружков или звездочек, это означает, что выбросов нет.

SPSS считает любое значение данных выбросом, если оно выходит за пределы следующих диапазонов:

  • 3-й квартиль + 1,5*межквартильный размах
  • 1-й квартиль – 1,5*межквартильный размах

Мы можем рассчитать межквартильный размах, взяв разницу между 75-м и 25-м процентилем в строке с надписью Tukey Hinges в результате:

Межквартильный размах шарниров Тьюки в SPSS

Для этого набора данных межквартильный диапазон составляет 82 – 36 = 46 . Таким образом, любые значения за пределами следующих диапазонов будут считаться выбросами:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Очевидно, что доход не может быть отрицательным, поэтому нижняя граница в этом примере бесполезна. Однако любой доход выше 151 будет считаться выбросом.

Например, предположим, что наибольшее значение в нашем наборе данных — 152. Вот коробчатая диаграмма для этого набора данных:

Ящик с выбросом в SPSS

Круг указывает на то, что в данных присутствует выброс. Число 15 указывает, какое наблюдение в наборе данных является выбросом.

SPSS также считает любое значение данных крайним выбросом , если оно выходит за пределы следующих диапазонов:

  • 3-й квартиль + 3*межквартильный размах
  • 1-й квартиль – 3*межквартильный размах

Таким образом, любые значения за пределами следующих диапазонов в этом примере будут считаться крайними выбросами:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Например, предположим, что наибольшее значение в нашем наборе данных — 221. Вот коробчатая диаграмма этого набора данных:

Экстремальный выброс на коробчатой диаграмме в SPSS

Звездочка (*) указывает на то, что в данных присутствует экстремальный выброс. Число 15 указывает, какое наблюдение в наборе данных является крайним выбросом.

Как обрабатывать выбросы

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.

2. Удалите выброс.

Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.

3. Присвойте выбросу новое значение .

Если выброс окажется результатом ошибки ввода данных, вы можете присвоить ему новое значение, например среднее значение или медиану набора данных.

Дополнительные ресурсы

Если вы работаете с несколькими переменными одновременно, вы можете использовать расстояние Махаланобиса для обнаружения выбросов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *