Как рассчитать расстояние махаланобиса в spss
Расстояние Махаланобиса — это расстояние между двумя точками в многомерном пространстве. Его часто используют для обнаружения выбросов в статистическом анализе, включающем несколько переменных.
В этом уроке объясняется, как рассчитать расстояние Махаланобиса в SPSS.
Пример: Расстояние Махаланобиса в SPSS
Предположим, у нас есть следующий набор данных, который отображает экзаменационные баллы 20 студентов, а также количество часов, которые они потратили на обучение, количество сданных практических экзаменов и текущую оценку по курсу:
Мы можем использовать следующие шаги для расчета расстояния Махаланобиса для каждого наблюдения в наборе данных, чтобы определить, есть ли какие-либо многомерные выбросы.
Шаг 1. Выберите параметр «Линейная регрессия».
Перейдите на вкладку «Анализ» , затем «Регрессия» , затем «Линейная» :
Шаг 2: Выберите вариант Махаланобис.
Перетащите оценку переменной ответа в поле с надписью «Зависимый». Перетащите остальные три предикторные переменные в поле с надписью «Независимые». Затем нажмите кнопку «Сохранить» . В появившемся новом окне убедитесь, что установлен флажок рядом с Махаланобисом . Затем нажмите Продолжить . Затем нажмите ОК .
Как только вы нажмете «ОК» , расстояние Махаланобиса для каждого наблюдения в наборе данных появится в новом столбце под названием MAH_1 :
Мы видим, что некоторые расстояния намного больше, чем другие. Чтобы определить, являются ли какие-либо расстояния статистически значимыми, нам необходимо вычислить их p-значения.
Шаг 3: Рассчитайте p-значения каждого расстояния Махаланобиса.
Откройте вкладку «Преобразование» , затем нажмите «Вычислить переменную» .
В поле «Целевая переменная» выберите новое имя для создаваемой переменной. Мы считаем «ценность». В поле Числовое выражение введите следующее:
1 – CDF.CHISQ(MAH_1, 3)
Затем нажмите ОК .
Это даст значение p, соответствующее значению хи-квадрат с 3 степенями свободы. Мы используем 3 степени свободы, потому что в нашей регрессионной модели есть 3 переменные-предикторы.
Шаг 4: Интерпретируйте значения p.
Как только вы нажмете «ОК» , значение p для каждого расстояния Махаланобиса будет отображаться в новом столбце:
По умолчанию SPSS отображает только значения p с двумя знаками после запятой. Вы можете увеличить количество десятичных знаков, нажав «Отобразить переменные» в нижней части SPSS и увеличив число в столбце «Десятичные знаки»:
Вернувшись в представление данных , вы увидите каждое значение p, отображаемое с пятью десятичными знаками. Любое значение p меньше 0,001 считается выбросом.
Мы видим, что первое наблюдение является единственным выбросом в наборе данных, поскольку его значение p меньше 0,001:
Как обрабатывать выбросы
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение данных было введено правильно и что это не ошибка.
2. Удалите выброс.
Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.