Руководство по мультиколлинеарности и vif в регрессии

К бенджамин андерсон 29 июля, 2023 Гид 0 комментариев

Мультиколлинеарность в регрессионном анализе возникает, когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в модели регрессии.

Если степень корреляции между переменными достаточно высока, это может вызвать проблемы при подборе и интерпретации регрессионной модели.

Например, предположим, что вы запускаете регрессионный анализ, используя максимальную переменную ответа на вертикальный прыжок и следующие переменные-предикторы:

высота
размер обуви
часов, потраченных на тренировки в день

В этом случае рост и размер обуви , вероятно, сильно коррелируют, поскольку более высокие люди, как правило, имеют обувь большего размера. Это означает, что мультиколлинеарность, вероятно, будет проблемой в этой регрессии.

В этом руководстве объясняется, почему мультиколлинеарность является проблемой, как ее обнаружить и как исправить.

Почему мультиколлинеарность является проблемой

Одна из основных целей регрессионного анализа — изолировать взаимосвязь между каждой переменной-предиктором и переменной отклика.

В частности, когда мы выполняем регрессионный анализ, мы интерпретируем каждый коэффициент регрессии как среднее изменение переменной ответа, предполагая, что все другие переменные-предикторы в модели остаются постоянными.

Это означает, что мы предполагаем, что можем изменить значения данной переменной-предиктора, не изменяя значения других переменных-предикторов.

Однако, когда две или более переменных-предикторов сильно коррелируют, становится трудно изменить одну переменную, не изменяя другую.

Это затрудняет для модели регрессии независимую оценку взаимосвязи между каждой переменной-предиктором и переменной ответа, поскольку переменные-предикторы имеют тенденцию меняться синхронно.

В целом мультиколлинеарность создает два типа проблем:

Оценки коэффициентов модели (и даже знаки коэффициентов) могут значительно колебаться в зависимости от других переменных-предсказателей, включенных в модель.
Точность оценок коэффициентов снижается, что делает значения p ненадежными. Это затрудняет определение того, какие переменные-предикторы действительно являются статистически значимыми.

Как обнаружить мультиколлинеарность

Самый распространенный способ обнаружить мультиколлинеарность — использовать коэффициент инфляции дисперсии (VIF) , который измеряет корреляцию и силу корреляции между переменными-предикторами в регрессионной модели.

Использование коэффициента инфляции дисперсии (VIF)

Большинство статистических программ имеют возможность рассчитывать VIF для регрессионной модели. Значение VIF начинается с 1 и не имеет верхнего предела. Общее правило интерпретации VIF следующее:

Значение 1 указывает на отсутствие корреляции между данной переменной-предиктором и любой другой переменной-предиктором в модели.
Значение от 1 до 5 указывает на умеренную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели, но часто она недостаточно серьезна, чтобы требовать особого внимания.
Значение больше 5 указывает на потенциально серьезную корреляцию между данной переменной-предиктором и другими переменными-предикторами в модели. В этом случае оценки коэффициентов и значения p в результатах регрессии, скорее всего, ненадежны.

Например, предположим, что мы выполняем регрессионный анализ, используя переменные-предикторы: рост , размер обуви и часы, затраченные на тренировки в день, чтобы спрогнозировать максимальный вертикальный прыжок баскетболистов, и получаем следующий результат:

В последнем столбце мы видим, что значения VIF для роста и размера обуви больше 5. Это указывает на то, что они, вероятно, страдают от мультиколлинеарности и что их оценки коэффициентов и значения p, вероятно, ненадежны.

Если мы посмотрим на оценку коэффициента для размера обуви, модель скажет нам, что для каждой дополнительной единицы увеличения размера обуви среднее увеличение максимального вертикального прыжка составляет -0,67498 дюйма, при условии, что рост и часы тренировок остаются постоянными.

Кажется, это не имеет смысла, учитывая, что мы ожидаем, что игроки с ботинками большего размера будут выше и, следовательно, будут иметь более высокий максимальный вертикальный прыжок.

Это классический пример мультиколлинеарности, из-за которого оценки коэффициентов кажутся немного надуманными и неинтуитивными.

Как решить мультиколлинеарность

Если вы обнаружите мультиколлинеарность, следующим шагом будет решить, нужно ли вам как-то ее устранить. В зависимости от цели вашего регрессионного анализа вам может не потребоваться устранение мультиколлинеарности.

Знать:

1. Если имеется лишь умеренная мультиколлинеарность, вам, вероятно, не потребуется ее каким-либо образом устранять.

2. Мультиколлинеарность влияет только на те переменные-предикторы, которые коррелируют друг с другом. Если вас интересует переменная-предиктор в модели, которая не страдает мультиколлинеарностью, то мультиколлинеарность не является проблемой.

3. Мультиколлинеарность влияет на оценки коэффициентов и значения p, но не влияет на прогнозы или статистику согласия. Это означает, что если ваша основная цель регрессии — делать прогнозы, и вы не заинтересованы в понимании точных взаимосвязей между переменными-предикторами и переменной ответа, то мультиколлинеарность не нужно решать.

Если вы решите, что вам необходимо исправить мультиколлинеарность, некоторые общие решения включают в себя:

1. Удалите одну или несколько сильно коррелирующих переменных. В большинстве случаев это самое быстрое решение, и зачастую оно является приемлемым решением, поскольку удаляемые вами переменные в любом случае являются избыточными и добавляют в модель мало уникальной или независимой информации.

2. Линейно комбинирует переменные-предикторы каким-либо образом, например, каким-либо образом добавляя или вычитая их. Сделав это, вы можете создать новую переменную, которая будет включать в себя информацию из обеих переменных, и у вас больше не возникнет проблема мультиколлинеарности.

3. Выполните анализ, предназначенный для учета сильно коррелирующих переменных, например , анализ главных компонентов или регрессию частичных наименьших квадратов (PLS) . Эти методы специально разработаны для обработки сильно коррелированных переменных-предикторов.

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше