Как рассчитать остатки в регрессионном анализе
Простая линейная регрессия — это статистический метод, который можно использовать, чтобы понять взаимосвязь между двумя переменными, x и y.
Переменная x известна как переменная-предиктор. Другая переменная, y , известна как переменная ответа .
Например, предположим, что у нас есть следующий набор данных с весом и ростом семи человек:
Пусть вес будет переменной-предиктором, а рост — переменной отклика.
Если мы построим график этих двух переменных, используя диаграмму рассеяния , с весом по оси X и высотой по оси Y, это будет выглядеть так:
Из диаграммы рассеяния мы ясно видим, что с увеличением веса рост также имеет тенденцию к увеличению, но для фактического количественного определения этой взаимосвязи между весом и ростом нам необходимо использовать линейную регрессию.
Используя линейную регрессию, мы можем найти линию, которая лучше всего «соответствует» нашим данным:
Формула этой линии наилучшего соответствия записывается:
ŷ = б 0 + б 1 х
где ŷ — прогнозируемое значение переменной отклика, b 0 — точка пересечения, b 1 — коэффициент регрессии, а x — значение переменной-предиктора.
В этом примере наилучшая подходящая линия:
размер = 32,783 + 0,2001*(вес)
Как посчитать остатки
Обратите внимание, что точки данных на нашей диаграмме рассеяния не всегда точно соответствуют линии наилучшего соответствия:
Эта разница между точкой данных и линией называется остатком . Для каждой точки данных мы можем вычислить остаток этой точки, взяв разницу между ее истинным значением и прогнозируемым значением из линии наилучшего соответствия.
Пример 1: Расчет остатка
Например, вспомните вес и рост семи человек в нашем наборе данных:
Первая особь весит 140 фунтов. и высотой 60 дюймов.
Чтобы узнать ожидаемый рост этого человека, мы можем подставить его вес в строку уравнения наилучшего соответствия:
размер = 32,783 + 0,2001*(вес)
Таким образом, прогнозируемый размер этой особи составляет:
высота = 32,783 + 0,2001*(140)
высота = 60,797 дюймов
Итак, остаток для этой точки данных составляет 60 – 60,797 = -0,797 .
Пример 2: Расчет остатка
Мы можем использовать тот же процесс, что и выше, для расчета остатка для каждой точки данных. Например, давайте рассчитаем остаток для второго человека в нашем наборе данных:
Вторая особь весит 155 фунтов. и высотой 62 дюйма.
Чтобы узнать ожидаемый рост этого человека, мы можем подставить его вес в строку уравнения наилучшего соответствия:
размер = 32,783 + 0,2001*(вес)
Таким образом, прогнозируемый размер этой особи составляет:
высота = 32,783 + 0,2001*(155)
высота = 63,7985 дюйма
Таким образом, остаток для этой точки данных составляет 62 – 63,7985 = -1,7985 .
Рассчитать все остатки
Используя тот же метод, что и в двух предыдущих примерах, мы можем вычислить остатки для каждой точки данных:
Обратите внимание, что некоторые остатки являются положительными, а другие отрицательными. Если сложить все остатки, их сумма будет равна нулю.
Это связано с тем, что линейная регрессия находит линию, которая минимизирует общий квадрат остатков, поэтому линия идеально проходит через данные, при этом некоторые точки данных лежат над линией, а другие — под линией.
Посмотреть остатки
Помните, что остаток — это просто расстояние между фактическим значением данных и значением, предсказанным линией регрессии наилучшего соответствия. Вот как эти расстояния выглядят визуально на облаке точек:
Обратите внимание, что некоторые остатки больше других. Кроме того, как мы упоминали ранее, некоторые остатки положительны, а некоторые отрицательны.
Создание остаточного пути
Цель расчета остатков состоит в том, чтобы увидеть, насколько хорошо линия регрессии соответствует данным.
Большие остатки указывают на то, что линия регрессии плохо соответствует данным, то есть фактические точки данных не аппроксимируют линию регрессии.
Меньшие остатки указывают на то, что линия регрессии лучше соответствует данным, то есть фактические точки данных находятся ближе к линии регрессии.
Полезным типом графика для одновременной визуализации всех остатков является график остатков. Остаточный график — это тип графика, который отображает прогнозируемые значения в сравнении с остатками для модели регрессии.
Этот тип графика часто используется для оценки того, подходит ли модель линейной регрессии для данного набора данных, а также для проверки гетероскедастичности остатков .
Ознакомьтесь с этим руководством , чтобы узнать, как создать график остатков для простой модели линейной регрессии в Excel.