Нижние квадраты

К бенджамин андерсон 2 августа, 2023 Статистика 0 комментариев

В этой статье объясняется, что такое метод наименьших квадратов в статистике, что такое метод наименьших квадратов и как регрессионная модель аппроксимируется критерием наименьших квадратов.

Что такое метод наименьших квадратов?

Метод наименьших квадратов — это статистический метод, используемый для определения уравнения регрессии. Другими словами, метод наименьших квадратов – это критерий, используемый в регрессионной модели для минимизации ошибки, получаемой при расчете уравнения регрессии.

Конкретно метод наименьших квадратов состоит в минимизации суммы квадратов остатков, или, другими словами, он основан на минимизации суммы квадратов разностей между значениями, предсказанными регрессионной моделью, и наблюдаемыми значениями. . . Ниже мы подробно увидим, как модель регрессии аппроксимируется критерием наименьших квадратов.

Основная особенность метода наименьших квадратов заключается в том, что максимально большие расстояния между наблюдаемыми значениями и функцией регрессии сводятся к минимуму. В отличие от других критериев регрессии, метод наименьших квадратов считает более важным минимизировать большие остатки, чем малые, поскольку квадрат большого числа намного больше квадрата малого. число.

Ошибка оценки

Чтобы полностью понять концепцию метода наименьших квадратов, мы должны сначала понять, что такое остатки в регрессионной модели. Поэтому ниже мы увидим, что такое ошибка оценки и как она рассчитывается.

В статистике ошибка оценки , также называемая остатком , представляет собой разницу между истинным значением и значением, полученным с помощью регрессионной модели. Таким образом, статистический остаток рассчитывается следующим образом:

$e_i=y_i-\widehat{y}_i$

Золото:

$e_i$

является остатком данных i.
$y_i$

— реальная ценность данных i.
$\widehat{y}_i$

— значение, предоставленное моделью регрессии для данных i.

Таким образом, чем больше остаток фрагмента данных, тем хуже регрессионная модель адаптирована к этому фрагменту данных. Таким образом, чем меньше остаток, тем меньше расстояние между его фактическим значением и прогнозируемым значением.

Аналогично, если остаток части данных положителен, это означает, что модель регрессии прогнозирует значение ниже истинного значения. тогда как, если остаток отрицательный, это означает, что прогнозируемое значение больше фактического значения.

Минимизируйте квадраты ошибок

Теперь, когда мы знаем, что такое остаток в статистике, будет легче понять, как минимизировать квадраты ошибок.

Квадрат ошибки — это квадрат остатка, поэтому квадрат ошибки равен разнице между истинным значением и значением, полученным с помощью модели регрессии, возведенной в степень двойки.

$e_i^2=(y_i-\widehat{y}_i)^2$

Золото:

$e_i^2$

— квадрат остатка данных i.
$y_i$

— реальная ценность данных i.
$\widehat{y}_i$

— значение, предоставленное моделью регрессии для данных i.

Таким образом, метод наименьших квадратов заключается в создании регрессионной модели путем минимизации суммы квадратов ошибок . Таким образом, критерий наименьших квадратов основан на минимизации следующего выражения:

$\begin{array}{l} [MIN] \ \displaystyle \sum_{i=1}^ne_i^2\\[4ex][MIN] \ \displaystyle \sum_{i=1}^n(y_i-\widehat{y}_i)^2\end{array}$

Вот почему критерий наименьших квадратов также называют критерием наименьших квадратов.

Как видно из предыдущей формулы, критерий наименьших квадратов придает большее значение минимизации больших остатков, чем малых остатков. Например, если один остаток равен 3, а другой остаток равен 5, их квадраты равны 9 и 25 соответственно, поэтому критерий наименьших квадратов будет отдавать приоритет минимизации второго остатка перед первым остатком.

Корректировка методом наименьших квадратов

Подбор модели регрессии с использованием критерия наименьших квадратов заключается в поиске модели регрессии, которая минимизирует квадраты остатков. Следовательно, уравнение, полученное на основе регрессионной модели, будет таким, в котором квадраты разностей между наблюдаемыми значениями и подобранными значениями минимальны.

Обратите внимание, что в следующем примере существует больше критериев для создания регрессионной модели, и в зависимости от выбранного критерия уравнение регрессии будет разным.

метод наименьших квадратов, корректировка наименьших квадратов

Как видно из предыдущих примеров, линия, полученная из модели линейной регрессии для того же набора данных, зависит от выбранного критерия. Обычно в регрессионных моделях используется критерий наименьших квадратов.

В статистике наиболее широко используемой моделью регрессии является простая модель линейной регрессии, которая состоит из аппроксимации связи между независимой переменной X и зависимой переменной Y с помощью прямой линии.

$y=b_0+b_1x$

Итак, формулы для подгонки набора данных к простой модели линейной регрессии:

$b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}$

$b_0=\overline{y}-b_1\overline{x}$

Вы можете увидеть пример того, как рассчитывается простая модель линейной регрессии с использованием критерия наименьших квадратов, нажав на следующую ссылку:

➤ См.: Пример простой линейной регрессии.

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше