Как рассчитать расстояние махаланобиса в spss


Расстояние Махаланобиса — это расстояние между двумя точками в многомерном пространстве. Его часто используют для обнаружения выбросов в статистическом анализе, включающем несколько переменных.

В этом уроке объясняется, как рассчитать расстояние Махаланобиса в SPSS.

Пример: Расстояние Махаланобиса в SPSS

Предположим, у нас есть следующий набор данных, который отображает экзаменационные баллы 20 студентов, а также количество часов, которые они потратили на обучение, количество сданных практических экзаменов и текущую оценку по курсу:

Мы можем использовать следующие шаги для расчета расстояния Махаланобиса для каждого наблюдения в наборе данных, чтобы определить, есть ли какие-либо многомерные выбросы.

Шаг 1. Выберите параметр «Линейная регрессия».

Перейдите на вкладку «Анализ» , затем «Регрессия» , затем «Линейная» :

Шаг 2: Выберите вариант Махаланобис.

Перетащите оценку переменной ответа в поле с надписью «Зависимый». Перетащите остальные три предикторные переменные в поле с надписью «Независимые». Затем нажмите кнопку «Сохранить» . В появившемся новом окне убедитесь, что установлен флажок рядом с Махаланобисом . Затем нажмите Продолжить . Затем нажмите ОК .

Расстояние Махаланобиса в SPSS

Как только вы нажмете «ОК» , расстояние Махаланобиса для каждого наблюдения в наборе данных появится в новом столбце под названием MAH_1 :

Мы видим, что некоторые расстояния намного больше, чем другие. Чтобы определить, являются ли какие-либо расстояния статистически значимыми, нам необходимо вычислить их p-значения.

Шаг 3: Рассчитайте p-значения каждого расстояния Махаланобиса.

Откройте вкладку «Преобразование» , затем нажмите «Вычислить переменную» .

В поле «Целевая переменная» выберите новое имя для создаваемой переменной. Мы считаем «ценность». В поле Числовое выражение введите следующее:

1 – CDF.CHISQ(MAH_1, 3)

Затем нажмите ОК .

Это даст значение p, соответствующее значению хи-квадрат с 3 степенями свободы. Мы используем 3 степени свободы, потому что в нашей регрессионной модели есть 3 переменные-предикторы.

Шаг 4: Интерпретируйте значения p.

Как только вы нажмете «ОК» , значение p для каждого расстояния Махаланобиса будет отображаться в новом столбце:

P-значения для расстояния Махаланобиса в SPSS

По умолчанию SPSS отображает только значения p с двумя знаками после запятой. Вы можете увеличить количество десятичных знаков, нажав «Отобразить переменные» в нижней части SPSS и увеличив число в столбце «Десятичные знаки»:

Вернувшись в представление данных , вы увидите каждое значение p, отображаемое с пятью десятичными знаками. Любое значение p меньше 0,001 считается выбросом.

Мы видим, что первое наблюдение является единственным выбросом в наборе данных, поскольку его значение p меньше 0,001:

Как обрабатывать выбросы

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение данных было введено правильно и что это не ошибка.

2. Удалите выброс.

Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *