Стандартизированные и нестандартизированные коэффициенты регрессии


Множественная линейная регрессия — полезный способ количественной оценки взаимосвязи между двумя или более переменными-предикторами и переменной отклика .

Обычно, когда мы выполняем множественную линейную регрессию, полученные коэффициенты регрессии не стандартизируются , то есть они используют необработанные данные для поиска наиболее подходящей линии.

Однако, когда переменные-предикторы измеряются в совершенно разных масштабах, может быть полезно выполнить множественную линейную регрессию с использованием стандартизированных данных, что приведет к получению стандартизированных коэффициентов.

Чтобы помочь вам понять эту идею, давайте рассмотрим простой пример.

Пример: стандартизированные и нестандартизированные коэффициенты регрессии.

Предположим, у нас есть следующий набор данных, содержащий информацию о возрасте, площади и цене продажи 12 домов:

Предположим, что мы затем выполняем множественную линейную регрессию, используя возраст и площадь в квадратных футах в качестве переменных-предсказателей, а цену в качестве переменной ответа.

Вот результат регрессии :

Пример нестандартизированных коэффициентов регрессии

Коэффициенты регрессии в этой таблице не стандартизированы , то есть они использовали необработанные данные для соответствия этой модели регрессии. На первый взгляд кажется, что возраст оказывает гораздо большее влияние на цену недвижимости, поскольку его коэффициент в таблице регрессии равен -409,833 по сравнению со всего лишь 100,866 для предикторной переменной площади в квадратных футах .

Однако стандартная ошибка намного больше для возраста, чем для квадратных метров, поэтому соответствующее значение p на самом деле велико для возраста (p = 0,520) и мало для квадратных метров (p = 0,000).

Причина крайних различий в коэффициентах регрессии связана с крайними различиями в масштабах двух переменных:

  • Значения возраста варьируются от 4 до 44 лет.
  • Значения квадратных метров варьируются от 1200 до 2800.

Предположим, что вместо этого мы нормализуем исходные необработанные данные, преобразуя каждое значение исходных данных в z-показатель:

Стандартизируйте данные в Excel

Если мы затем выполним множественную линейную регрессию, используя стандартизированные данные, мы получим следующий результат регрессии:

Стандартизированные коэффициенты регрессии

Коэффициенты регрессии в этой таблице стандартизированы , то есть использовались стандартизированные данные, соответствующие этой модели регрессии. Интерпретация коэффициентов в таблице следующая:

  • Увеличение возраста на одно стандартное отклонение связано со снижением цены на жилье на 0,092 стандартного отклонения, при условии, что площадь в квадратных футах остается постоянной.
  • Увеличение площади на одно стандартное отклонение связано с увеличением стоимости дома на 0,885 стандартного отклонения, при условии, что возраст остается постоянным.

Мы сразу видим, что площадь в квадратных метрах оказывает гораздо большее влияние на цены на недвижимость, чем ее возраст. Также обратите внимание, что значения p для каждой переменной-предиктора точно такие же, как и в предыдущей модели регрессии.

Связанный: Как рассчитать Z-показатели в Excel

Когда использовать стандартизированные или нестандартизированные коэффициенты регрессии

Как стандартизированные, так и нестандартизированные коэффициенты регрессии могут быть полезны в зависимости от ситуации. Особенно:

Нестандартизированные коэффициенты регрессии полезны, когда вы хотите интерпретировать эффект, который изменение на одну единицу в переменной-предикторе оказывает на переменную ответа. В приведенном выше примере мы могли бы использовать нестандартизированные коэффициенты регрессии из первой регрессии, чтобы понять точную взаимосвязь между переменными-предикторами и переменной ответа:

  • Увеличение возраста на одну единицу было связано со снижением цены дома в среднем на 409 долларов при условии, что площадь в квадратных футах останется неизменной. Этот коэффициент оказался статистически недостоверным (р=0,520).
  • Увеличение площади на одну единицу площади было связано со средним увеличением цен на жилье на 100 долларов при условии, что возраст останется постоянным. Этот коэффициент также оказался статистически значимым (р=0,000).

Стандартизированные коэффициенты регрессии полезны, когда вы хотите сравнить влияние различных переменных-предикторов на переменную ответа. Поскольку каждая переменная стандартизирована, вы можете увидеть, какая переменная оказывает наибольшее влияние на переменную ответа.

Недостатком стандартизированных коэффициентов регрессии является то, что их немного сложнее интерпретировать. Например, легче понять влияние увеличения на одну единицу возраста на цену недвижимости, чем влияние увеличения на одно стандартное отклонение на цену недвижимости.

Дополнительные ресурсы

Как читать и интерпретировать таблицу регрессии
Как интерпретировать коэффициенты регрессии
Как выполнить множественную линейную регрессию в Excel

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *