Anova против регрессии: в чем разница?


В статистике обычно используются две модели: ANOVA и регрессионные модели.

Эти два типа моделей имеют следующее сходство:

  • Переменная отклика в каждой модели является непрерывной. Примеры непрерывных переменных включают вес, рост, длину, ширину, время, возраст и т. д.

Однако эти два типа моделей имеют следующее различие :

  • Модели ANOVA используются, когда переменные-предикторы являются категориальными. Примеры категориальных переменных включают уровень образования, цвет глаз, семейное положение и т. д.
  • Модели регрессии используются, когда переменные-предикторы являются непрерывными.*

*Модели регрессии можно использовать с категориальными переменными-предикторами, но для их использования нам необходимо создать фиктивные переменные .

Следующие примеры показывают, когда на практике следует использовать модели ANOVA или регрессии.

Пример 1: Предпочтительная модель ANOVA

Предположим, биолог хочет понять, приводят ли четыре разных удобрения к одинаковому среднему росту растений (в дюймах) за месячный период. Чтобы проверить это, она применяет каждое удобрение к 20 растениям и записывает рост каждого растения через месяц.

В этом сценарии биолог должен использовать однофакторную модель ANOVA для анализа различий между удобрениями, поскольку существует предикторная переменная, и она является категориальной.

Другими словами, значения переменной-предиктора можно разделить на следующие «категории»:

  • Удобрение 1
  • Удобрение 2
  • Удобрение 3
  • Удобрение 4

Односторонний дисперсионный анализ подскажет биологу, одинаков ли средний рост растений при использовании четырех различных удобрений.

Пример 2: Предпочтительная модель регрессии

Допустим, агент по недвижимости хочет понять взаимосвязь между площадью и ценой недвижимости. Чтобы проанализировать эту взаимосвязь, он собирает данные о площади и цене 200 домов в конкретном городе.

В этом сценарии агент по недвижимости должен использовать простую модель линейной регрессии для анализа взаимосвязи между этими двумя переменными, поскольку переменная-предиктор (площадь в квадратных метрах) является непрерывной.

Используя простую линейную регрессию, агент по недвижимости может подобрать следующую модель регрессии:

Цена недвижимости = β 0 + β 1 (площадь квадрата)

Значение β 1 будет представлять собой среднее изменение цены дома, связанное с каждым дополнительным квадратным футом.

Это позволит агенту по недвижимости количественно оценить взаимосвязь между площадью и ценой недвижимости.

Пример 3: Модель регрессии с предпочтительными фиктивными переменными

Предположим, агент по недвижимости хочет понять взаимосвязь между переменными-предикторами «площадь в квадратных метрах» и «тип дома» (одна семья, квартира, таунхаус) с переменной ответа — ценой недвижимости.

В этом сценарии агент по недвижимости может использовать множественную линейную регрессию, преобразуя «тип дома» в фиктивную переменную, поскольку в настоящее время это категориальная переменная.

Затем агент по недвижимости может использовать следующую модель множественной линейной регрессии:

Цена недвижимости = β 0 + β 1 (площадь) + β 2 (одна семья) + β 3 (квартира)

Вот как мы будем интерпретировать коэффициенты модели:

  • β 1 : Среднее изменение цены дома, связанное с одним дополнительным квадратным футом.
  • β 2 : Средняя разница в цене между домом на одну семью и таунхаусом при условии, что площадь в квадратных футах остается постоянной.
  • β 3 : Средняя разница в цене между частным домом и квартирой при условии постоянной площади.

Ознакомьтесь со следующими уроками, чтобы узнать, как создавать фиктивные переменные в различных статистических программах:

Дополнительные ресурсы

Следующие учебные пособия содержат подробное введение в модели ANOVA:

Следующие учебные пособия представляют собой углубленное введение в модели линейной регрессии:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *