Как определить значимые переменные в регрессионных моделях
Один из основных вопросов, которые вы зададите себе после подбора модели множественной линейной регрессии : какие переменные являются значимыми?
Есть два метода , которые не следует использовать для определения значения переменной:
1. Значение коэффициентов регрессии
Коэффициент регрессии для данной предикторной переменной показывает среднее изменение переменной ответа, связанное с увеличением этой предикторной переменной на одну единицу.
Однако каждая переменная-предиктор в модели обычно измеряется в разном масштабе. Поэтому не имеет смысла сравнивать абсолютные значения коэффициентов регрессии, чтобы определить, какие переменные являются наиболее важными.
2. P-значения коэффициентов регрессии
P-значения коэффициентов регрессии могут сказать вам, имеет ли данная переменная-предиктор статистически значимую связь с переменной ответа, но они не могут сказать вам, является ли данная переменная-предиктор практически значимой в реальном мире.
Значения P также могут быть низкими из-за большого размера выборки или низкой вариабельности, что на самом деле не говорит нам, имеет ли данная предикторная переменная значение на практике.
Однако есть два метода, которые следует использовать для определения значения переменных:
1. Стандартизированные коэффициенты регрессии
Обычно, когда мы выполняем множественную линейную регрессию, результирующие коэффициенты регрессии в выходных данных модели не стандартизируются , то есть они используют необработанные данные для поиска наиболее подходящей линии.
Однако можно стандартизировать каждую переменную-предиктор и переменную отклика (путем вычитания среднего значения каждой переменной из исходных значений и последующего деления его на стандартное отклонение переменных), а затем запустить регрессию, в результате чего стандартизированные коэффициенты регрессии .
Стандартизируя каждую переменную в модели, каждая переменная измеряется в одном масштабе. Поэтому имеет смысл сравнить абсолютные значения коэффициентов регрессии в результатах, чтобы понять, какие переменные оказывают наибольшее влияние на переменную отклика.
2. Знание предмета
Хотя p-значения могут сказать вам, существует ли статистически значимый эффект между данной переменной-предиктором и переменной ответа, необходима экспертиза в предметной области, чтобы подтвердить, действительно ли переменная-предиктор релевантна и действительно ли ее следует включить в модель.
В следующем примере показано, как на практике определить значимые переменные в регрессионной модели.
Пример: Как определить значимые переменные в регрессионной модели
Предположим, у нас есть следующий набор данных, содержащий информацию о возрасте, площади и цене продажи 12 домов:
Предположим, что мы затем выполняем множественную линейную регрессию, используя возраст и площадь в квадратных футах в качестве переменных-предсказателей, а цену в качестве переменной ответа.
Получаем следующий результат:
Коэффициенты регрессии в этой таблице не стандартизированы , то есть они использовали необработанные данные для соответствия этой модели регрессии.
На первый взгляд кажется, что возраст оказывает гораздо большее влияние на цену недвижимости, поскольку его коэффициент в таблице регрессии равен -409,833 по сравнению со всего лишь 100,866 для предикторной переменной площади в квадратных футах .
Однако стандартная ошибка намного больше для возраста, чем для квадратных метров, поэтому соответствующее значение p на самом деле велико для возраста (p = 0,520) и мало для квадратных метров (p = 0,000).
Причина крайних различий в коэффициентах регрессии связана с крайними различиями в масштабах двух переменных:
- Значения возраста варьируются от 4 до 44 лет.
- Значения квадратных метров варьируются от 1200 до 2800.
Предположим, что вместо этого мы нормализуем необработанные данные:
Если мы затем выполним множественную линейную регрессию, используя стандартизированные данные, мы получим следующий результат регрессии:
Коэффициенты регрессии в этой таблице стандартизированы , то есть использовались стандартизированные данные, соответствующие этой модели регрессии.
Интерпретация коэффициентов в таблице следующая:
- Увеличение возраста на одно стандартное отклонение связано со снижением цены на жилье на 0,092 стандартного отклонения, при условии, что площадь в квадратных футах остается постоянной.
- Увеличение площади на одно стандартное отклонение связано с увеличением стоимости дома на 0,885 стандартного отклонения, при условии, что возраст остается постоянным.
Теперь мы видим, что площадь в квадратных метрах оказывает гораздо большее влияние на цены на жилье, чем возраст.
Примечание . Значения p для каждой переменной-предиктора точно такие же, как и в предыдущей модели регрессии.
Принимая решение о том, какую окончательную модель использовать, мы теперь знаем, что площадь в квадратных футах гораздо важнее для прогнозирования цены дома, чем его возраст .
В конечном итоге нам нужно будет использовать наш опыт в предметной области, чтобы определить, какие переменные включить в окончательную модель, основываясь на существующих знаниях о ценах на жилье и недвижимость.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация о моделях регрессии:
Как читать и интерпретировать таблицу регрессии
Как интерпретировать коэффициенты регрессии
Как интерпретировать значения P в линейной регрессии