Руководство по мультиколлинеарности и vif в регрессии
Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в модели регрессии.
Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подборе и интерпретации регрессионной модели.
Например, предположим, что вы запускаете регрессионный анализ, используя максимальную переменную ответа на вертикальный прыжок и следующие переменные-предикторы:
- высота
- размер обуви
- часов, потраченных на тренировки в день
В этом случае рост и размер обуви , вероятно, сильно коррелируют, поскольку более высокие люди, как правило, имеют обувь большего размера. Это означает, что мультиколлинеарность, вероятно, будет проблемой в этой регрессии.
В этом руководстве объясняется, почему мультиколлинеарность является проблемой, как ее обнаружить и как исправить.
Почему мультиколлинеарность является проблемой
Одна из основных целей регрессионного анализа — изолировать взаимосвязь между каждой переменной-предиктором и переменной отклика.
В частности, когда мы выполняем регрессионный анализ, мы интерпретируем каждый коэффициент регрессии как среднее изменение переменной ответа, предполагая, что все другие переменные-предикторы в модели остаются постоянными.
Это означает, что мы предполагаем, что можем изменить значения данной переменной-предиктора, не изменяя значения других переменных-предикторов.
Однако, когда две или более переменных-предикторов сильно коррелируют, становится трудно изменить одну переменную, не изменяя другую.
Это затрудняет для модели регрессии независимую оценку взаимосвязи между каждой переменной-предиктором и переменной ответа, поскольку переменные-предикторы имеют тенденцию меняться синхронно.
В целом мультиколлинеарность создает два типа проблем:
- Оценки коэффициентов модели (и даже знаки коэффициентов) могут значительно колебаться в зависимости от других переменных-предсказателей, включенных в модель.
- Точность оценок коэффициентов снижается, что делает значения p ненадежными. Это затрудняет определение того, какие переменные-предикторы действительно являются статистически значимыми.
Как обнаружить мультиколлинеарность
Самый распространенный способ обнаружить мультиколлинеарность — использовать коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.
Использование коэффициента инфляции дисперсии (VIF)
Большинство статистических программ имеют возможность рассчитывать VIF для регрессионной модели. Значение VIF начинается с 1 и не имеет верхнего предела. Общее правило интерпретации VIF следующее:
- Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любой другой переменной-предиктором в модели.
- Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезна, чтобы требовать особого внимания.
- Значение больше 5 указывает на потенциально серьезную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и значения p в результатах регрессии, скорее всего, ненадежны.
Например, предположим, что мы выполняем регрессионный анализ, используя переменные-предикторы: рост , размер обуви и часы, затраченные на тренировки в день, чтобы спрогнозировать максимальный вертикальный прыжок баскетболистов, и получаем следующий результат:
В последнем столбце мы видим, что значения VIF для роста и размера обуви больше 5. Это указывает на то, что они, вероятно, страдают от мультиколлинеарности и что их оценки коэффициентов и значения p, вероятно, ненадежны.
Если мы посмотрим на оценку коэффициента для размера обуви, модель скажет нам, что для каждой дополнительной единицы увеличения размера обуви среднее увеличение максимального вертикального прыжка составляет -0,67498 дюйма, при условии, что рост и часы тренировок остаются постоянными.
Кажется, это не имеет смысла, учитывая, что мы ожидаем, что игроки с ботинками большего размера будут выше и, следовательно, будут иметь более высокий максимальный вертикальный прыжок.
Это классический пример мультиколлинеарности, из-за которого оценки коэффициентов кажутся немного надуманными и неинтуитивными.
Как решить мультиколлинеарность
Если вы обнаружите мультиколлинеарность, следующим шагом будет решить, нужно ли вам как-то ее устранить. В зависимости от цели вашего регрессионного анализа вам может не потребоваться устранение мультиколлинеарности.
Знать:
1. Если имеется лишь умеренная мультиколлинеарность, вам, вероятно, не потребуется ее каким-либо образом устранять.
2. Мультиколлинеарность влияет только на те переменные-предикторы, которые коррелируют друг с другом. Если вас интересует переменная-предиктор в модели, которая не страдает мультиколлинеарностью, то мультиколлинеарность не является проблемой.
3. Мультиколлинеарность влияет на оценки коэффициентов и значения p, но не влияет на прогнозы или статистику согласия. Это означает, что если ваша основная цель регрессии — делать прогнозы, и вы не заинтересованы в понимании точных взаимосвязей между переменными-предикторами и переменной ответа, то мультиколлинеарность не нужно решать.
Если вы решите, что вам необходимо исправить мультиколлинеарность, некоторые общие решения включают в себя:
1. Удалите одну или несколько сильно коррелирующих переменных. В большинстве случаев это самое быстрое решение, и зачастую оно является приемлемым решением, поскольку удаляемые вами переменные в любом случае являются избыточными и добавляют в модель мало уникальной или независимой информации.
2. Линейно комбинирует переменные-предикторы каким-либо образом, например, каким-либо образом добавляя или вычитая их. Сделав это, вы можете создать новую переменную, которая будет включать в себя информацию из обеих переменных, и у вас больше не возникнет проблема мультиколлинеарности.
3. Выполните анализ, предназначенный для учета сильно коррелирующих переменных, например , анализ главных компонентов или регрессию частичных наименьших квадратов (PLS) . Эти методы специально разработаны для обработки сильно коррелированных переменных-предикторов.