Как проверить мультиколлинеарность в spss


Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в модели регрессии. Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подборе и интерпретации регрессионной модели.

Один из способов обнаружить мультиколлинеарность — использовать метрику, известную как коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.

В этом руководстве объясняется, как использовать VIF для обнаружения мультиколлинеарности в регрессионном анализе в SPSS.

Пример: мультиколлинеарность в SPSS

Предположим, у нас есть следующий набор данных, который показывает экзаменационные баллы 10 студентов, а также количество часов, которые они потратили на обучение, количество сданных практических экзаменов и их текущую оценку по курсу:

Мы хотели бы выполнить линейную регрессию, используя счет в качестве переменной ответа и часы , prep_exams и current_grade в качестве переменных-предикторов, но мы хотим убедиться, что три переменные-предиктора не сильно коррелируют.

Чтобы определить, является ли мультиколлинеарность проблемой, мы можем получить значения VIF для каждой из переменных-предикторов.

Для этого нажмите вкладку «Анализ» , затем «Регрессия» , затем «Линейный» :

В появившемся новом окне перетащите оценку в поле с надписью «Зависимые» и перетащите три переменные-предикторы в поле с надписью «Независимые». Затем нажмите «Статистика» и убедитесь, что рядом с «Диагностика коллинеарности» установлен флажок. Затем нажмите Продолжить . Затем нажмите ОК .

После того, как вы нажмете «ОК» , появится следующая таблица, показывающая значение VIF для каждой предикторной переменной:

ВИФ в SPSS

Значения VIF для каждой из переменных-предикторов следующие:

  • часы: 1169
  • prep_exams: 1,403
  • текущий_балл: 1,522

Значение VIF начинается с 1 и не имеет верхнего предела. Общее правило интерпретации VIF следующее:

  • Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любой другой переменной-предиктором в модели.
  • Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезна, чтобы требовать особого внимания.
  • Значение больше 5 указывает на потенциально серьезную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и значения p в результатах регрессии, скорее всего, ненадежны.

Мы видим, что ни одно из значений VIF для переменных-предикторов в этом примере не превышает 5, что указывает на то, что мультиколлинеарность не будет проблемой в регрессионной модели.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *