Как идентифицировать выбросы в spss
Выброс — это наблюдение, которое аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
В этом руководстве объясняется, как идентифицировать и обрабатывать выбросы в SPSS.
Как идентифицировать выбросы в SPSS
Предположим, у нас есть следующий набор данных, показывающий годовой доход (в тысячах) 15 человек:
Один из способов определить наличие выбросов — создать коробчатую диаграмму для набора данных. Для этого нажмите вкладку «Анализ» , затем «Описательная статистика» , затем «Исследовать» :
В появившемся новом окне перетащите переменный доход в поле «Список иждивенцев». Затем нажмите «Статистика» и убедитесь, что установлен флажок рядом с «Процентили» . Затем нажмите Продолжить . Затем нажмите ОК .
Как только вы нажмете «ОК» , появится коробчатая диаграмма:
Если на обоих концах диаграммы нет кружков или звездочек, это означает, что выбросов нет.
SPSS считает любое значение данных выбросом, если оно выходит за пределы следующих диапазонов:
- 3-й квартиль + 1,5*межквартильный размах
- 1-й квартиль – 1,5*межквартильный размах
Мы можем рассчитать межквартильный размах, взяв разницу между 75-м и 25-м процентилем в строке с надписью Tukey Hinges в результате:
Для этого набора данных межквартильный диапазон составляет 82 – 36 = 46 . Таким образом, любые значения за пределами следующих диапазонов будут считаться выбросами:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Очевидно, что доход не может быть отрицательным, поэтому нижняя граница в этом примере бесполезна. Однако любой доход выше 151 будет считаться выбросом.
Например, предположим, что наибольшее значение в нашем наборе данных — 152. Вот коробчатая диаграмма для этого набора данных:
Круг указывает на то, что в данных присутствует выброс. Число 15 указывает, какое наблюдение в наборе данных является выбросом.
SPSS также считает любое значение данных крайним выбросом , если оно выходит за пределы следующих диапазонов:
- 3-й квартиль + 3*межквартильный размах
- 1-й квартиль – 3*межквартильный размах
Таким образом, любые значения за пределами следующих диапазонов в этом примере будут считаться крайними выбросами:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Например, предположим, что наибольшее значение в нашем наборе данных — 221. Вот коробчатая диаграмма этого набора данных:
Звездочка (*) указывает на то, что в данных присутствует экстремальный выброс. Число 15 указывает, какое наблюдение в наборе данных является крайним выбросом.
Как обрабатывать выбросы
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
2. Удалите выброс.
Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.
3. Присвойте выбросу новое значение .
Если выброс окажется результатом ошибки ввода данных, вы можете присвоить ему новое значение, например среднее значение или медиану набора данных.
Дополнительные ресурсы
Если вы работаете с несколькими переменными одновременно, вы можете использовать расстояние Махаланобиса для обнаружения выбросов.