Нижні квадрати

за Редакція 2 Серпня, 2023 Статистика 0 коментарів

У цій статті пояснюється, що таке метод найменших квадратів у статистиці, що таке метод найменших квадратів і як модель регресії підлаштовується за критерієм найменших квадратів.

Що таке метод найменших квадратів?

Метод найменших квадратів – це статистичний метод, який використовується для визначення рівняння регресії. Іншими словами, метод найменших квадратів — це критерій, який використовується в моделі регресії для мінімізації похибки, отриманої під час розрахунку рівняння регресії.

Конкретно, метод найменших квадратів полягає в мінімізації суми квадратів залишків, або іншими словами, він заснований на мінімізації суми квадратів різниць між значеннями, передбаченими регресійною моделлю, і спостережуваними значеннями . . Нижче ми детально розглянемо, як модель регресії підганяється за критерієм найменших квадратів.

Основна особливість методу найменших квадратів полягає в тому, що найбільші відстані між спостережуваними значеннями і функцією регресії зводяться до мінімуму. На відміну від інших критеріїв регресії, метод найменших квадратів вважає більш важливим мінімізувати великі залишки, ніж маленькі залишки, оскільки квадрат великого числа набагато більший, ніж квадрат малого. номер.

Помилка оцінки

Щоб повністю зрозуміти концепцію найменших квадратів, ми повинні спочатку чітко знати, що таке залишки в регресійній моделі. Тому нижче ми побачимо, що таке помилка оцінки та як вона обчислюється.

У статистиці помилка оцінки , яку також називають залишковою , є різницею між справжнім значенням і значенням, підігнаним регресійною моделлю. Отже, статистичний залишок обчислюється таким чином:

$e_i=y_i-\widehat{y}_i$

золото:

$e_i$

є залишком даних i.
$y_i$

є дійсним значенням даних i.
$\widehat{y}_i$

це значення, надане регресійною моделлю для даних i.

Таким чином, чим більший залишок фрагмента даних, тим гірше регресійна модель адаптована до цього фрагмента даних. Таким чином, чим менший залишок, тим менша відстань між його фактичним значенням і його прогнозованим значенням.

Подібним чином, якщо залишок частини даних додатний, це означає, що модель регресії передбачає значення, нижче за справжнє значення. тоді як якщо нев’язка від’ємна, це означає, що прогнозоване значення більше фактичного.

Мінімізуйте квадрати помилок

Тепер, коли ми знаємо, що таке залишок у статистиці, буде легше зрозуміти, як мінімізуються квадрати помилок.

Квадрат помилки є квадратом залишку, тому квадрат помилки дорівнює різниці між справжнім значенням і значенням, підібраним регресійною моделлю, зведеним до степеня два.

$e_i^2=(y_i-\widehat{y}_i)^2$

золото:

$e_i^2$

є квадратом залишку даних i.
$y_i$

є дійсним значенням даних i.
$\widehat{y}_i$

це значення, надане регресійною моделлю для даних i.

Таким чином, метод найменших квадратів полягає у створенні моделі регресії шляхом мінімізації суми квадратів помилок . Отже, критерій найменших квадратів базується на мінімізації наступного виразу:

$\begin{array}{l} [MIN] \ \displaystyle \sum_{i=1}^ne_i^2\\[4ex][MIN] \ \displaystyle \sum_{i=1}^n(y_i-\widehat{y}_i)^2\end{array}$

Ось чому критерій найменших квадратів також називають критерієм найменших квадратів.

Як ви можете бачити в попередній формулі, критерій найменших квадратів надає більше значення мінімізації великих залишків, ніж малих залишків. Наприклад, якщо один залишок дорівнює 3, а інший – 5, їхні квадрати дорівнюють 9 і 25 відповідно, тому критерій найменших квадратів надаватиме пріоритет мінімізації другого залишку перед першим залишком.

Коригування методом найменших квадратів

Підгонка регресійної моделі за допомогою критерію найменших квадратів полягає в пошуку регресійної моделі, яка мінімізує квадрати залишків. Таким чином, рівняння, отримане з моделі регресії, буде таким, у якого квадрати відмінностей між спостережуваними значеннями та підігнаними значеннями мінімальні.

Зверніть увагу на наступний приклад, що існує більше критеріїв для створення регресійної моделі, і, залежно від вибраного критерію, рівняння регресії відрізняється.

метод найменших квадратів, коригування найменших квадратів

Як ви можете бачити в попередніх прикладах, лінія, отримана з моделі лінійної регресії для того самого набору даних, залежить від вибраного критерію. Зазвичай у регресійних моделях використовується критерій найменших квадратів.

У статистиці найбільш широко використовуваною регресійною моделлю є проста модель лінійної регресії, яка полягає в наближенні співвідношення між незалежною змінною X і залежною змінною Y за допомогою прямої лінії.

$y=b_0+b_1x$

Отже, формули для підгонки набору даних до простої моделі лінійної регресії такі:

$b_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}$

$b_0=\overline{y}-b_1\overline{x}$

Ви можете побачити приклад того, як проста модель лінійної регресії розраховується за допомогою критерію найменших квадратів, натиснувши таке посилання:

➤ Див.: Приклад простої лінійної регресії

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше