Мультиколлинеарность
В этой статье объясняется, что такое мультиколлинеарность в статистике. Итак, вы узнаете, когда существует мультиколлинеарность, каковы последствия мультиколлинеарности, как выявить мультиколлинеарность и, наконец, как решить эту проблему.
Что такое мультиколлинеарность?
Мультиколлинеарность — это ситуация, которая возникает, когда две или более объясняющие переменные в регрессионной модели имеют высокую корреляцию. Другими словами, в регрессионной модели мультиколлинеарность существует, когда связь между двумя или более переменными в модели очень сильная.
Например, если мы запустим регрессионную модель, которая связывает ожидаемую продолжительность жизни страны с численностью ее населения и ВВП, между численностью населения и ВВП наверняка возникнет мультиколлинеарность, поскольку эти две переменные, как правило, сильно коррелируют. коррелированы. Поэтому будет сложно проанализировать влияние каждой переменной на ожидаемую продолжительность жизни.
Логически переменные в модели всегда будут коррелировать друг с другом; только в идиллическом процессе между переменными не возникает корреляции. Однако нас интересует то, чтобы корреляция между переменными была низкой, иначе мы не сможем узнать влияние каждой объясняющей переменной на переменную отклика.
Основными причинами мультиколлинеарности обычно являются небольшой размер выборки, наличие причинно-следственной связи между объясняющими переменными или низкая вариативность наблюдений.
Виды мультиколлинеарности
Различают два типа мультиколлинеарности:
- Точная мультиколлинеарность : когда одна или несколько переменных представляют собой линейную комбинацию других переменных. В этом случае коэффициент корреляции между мультиколлинеарными переменными равен 1.
- Приблизительная мультиколлинеарность : между переменными нет линейной комбинации, но коэффициент детерминации между двумя или более переменными очень близок к 1, и поэтому они сильно коррелируют.
Последствия мультиколлинеарности
- Значение коэффициентов регрессии модели изменяется при добавлении коррелирующих переменных, что затрудняет интерпретацию полученной модели регрессии.
- Точность оценки параметров снижается, поэтому стандартная ошибка коэффициентов регрессии увеличивается.
- Некоторые из переменных, вызывающих мультиколлинеарность, заведомо избыточны, и поэтому нет необходимости включать их в модель.
- Вполне вероятно, что вы попадете в ситуацию переоснащения, то есть модель переоснащена и по этой причине бесполезна для прогнозирования.
- P-значения коэффициентов регрессии становятся менее достоверными. Поэтому сложнее определить, какие переменные включить, а какие удалить в регрессионную модель.
Как обнаружить мультиколлинеарность
Одним из способов выявления мультиколлинеарности является вычисление корреляционной матрицы , поскольку она содержит коэффициент корреляции между всеми переменными и, следовательно, ее можно наблюдать, если пара переменных сильно коррелирует.
Однако с помощью корреляционной матрицы вы можете знать только, связаны ли две переменные друг с другом, но вы не можете знать, существует ли комбинация между набором переменных. Для этого обычно рассчитывают коэффициент инфляции дисперсии.
Коэффициент инфляции дисперсии (VIF) , также называемый коэффициентом инфляции дисперсии (VIF) , представляет собой статистический коэффициент, рассчитываемый для каждой объясняющей переменной и указывающий на корреляцию других переменных с данной объясняющей переменной. Конкретно его формула выглядит следующим образом:
Золото
– коэффициент инфляции дисперсии переменной iy
— коэффициент детерминации регрессионной модели, в которой переменная i является зависимой переменной, а остальные переменные — независимыми переменными.
Таким образом, в зависимости от значения полученных коэффициентов инфляции дисперсии можно узнать, имеется ли мультиколлинеарность или нет:
- VIF = 1 : когда коэффициент инфляции дисперсии равен 1, это означает, что между зависимой переменной и другими переменными нет корреляции.
- 1 < ЭКО < 5 : корреляция между переменными имеется, но она умеренная. В принципе, никаких действий по исправлению мультиколлинеарности предпринимать не нужно.
- VIF > 5 : Если коэффициент инфляции дисперсии больше 1, это означает, что мультиколлинеарность модели высока и, следовательно, следует попытаться ее решить.
На практике коэффициенты инфляции дисперсии обычно рассчитываются с помощью компьютерного программного обеспечения, поскольку создание регрессионной модели для каждой переменной, а затем ручное определение значения коэффициента заняло бы много времени.
Правильная мультиколлинеарность
Следующие меры могут быть полезны при решении проблем мультиколлинеарности в регрессионной модели:
- Если размер выборки небольшой, увеличение количества данных может уменьшить приблизительную мультиколлинеарность.
- Удалите все переменные, которые создают мультиколлинеарность. Если переменные сильно коррелированы, в модели будет потеряно мало информации и мультиколлинеарность уменьшится.
- Создайте модель регрессии, применив критерий частичных наименьших квадратов (PLS).
- Иногда вы можете оставить модель регрессии как есть, с мультиколлинеарностью. Например, если мы просто хотим создать модель для прогнозирования и нам не нужно ее интерпретировать, мы можем использовать уравнение модели для прогнозирования значения зависимой переменной с помощью нового наблюдения, предполагая, что модель мультиколлинеарности повторяется. в новых наблюдениях.