Як обчислити залишки в регресійному аналізі


Проста лінійна регресія — це статистичний метод, який можна використовувати для розуміння зв’язку між двома змінними x і y.

Змінна x відома як змінна-прогноз. Інша змінна, y , відома як змінна відповіді .

Наприклад, припустімо, що ми маємо такий набір даних із вагою та зростом семи осіб:

Проста лінійна регресія

Нехай вага буде прогностичною змінною, а зріст – змінною відповіді.

Якщо ми побудуємо графік цих двох змінних за допомогою діаграми розсіювання з вагою на осі x і висотою на осі y, це виглядатиме ось як:

З діаграми розсіювання ми можемо чітко побачити, що зі збільшенням ваги зріст також має тенденцію до збільшення, але щоб фактично кількісно визначити це співвідношення між вагою та зростом, нам потрібно використовувати лінійну регресію.

Використовуючи лінійну регресію, ми можемо знайти лінію, яка найкраще «відповідає» нашим даним:

Формула для цієї лінії, яка найкраще підходить, записана:

ŷ = b 0 + b 1 x

де ŷ – прогнозоване значення змінної відповіді, b 0 – відрізок, b 1 – коефіцієнт регресії, а x – значення змінної предиктора.

У цьому прикладі найкраща лінія:

розмір = 32,783 + 0,2001*(вага)

Як розрахувати залишки

Зауважте, що точки даних на нашій діаграмі розсіювання не завжди точно відповідають лінії найкращого підходу:

Ця різниця між точкою даних і лінією називається залишком . Для кожної точки даних ми можемо обчислити нев’язку цієї точки, взявши різницю між її справжнім значенням і прогнозованим значенням із лінії найкращого підходу.

Приклад 1: Розрахунок залишку

Наприклад, пригадайте вагу та зріст семи осіб у нашому наборі даних:

Проста лінійна регресія

Перша особина важить 140 кілограм. і висотою 60 дюймів.

Щоб дізнатися очікуваний зріст цієї особи, ми можемо підставити її вагу до рівняння найкращого підходу:

розмір = 32,783 + 0,2001*(вага)

Таким чином, прогнозований розмір цієї особини:

висота = 32,783 + 0,2001*(140)

висота = 60,797 дюймів

Таким чином, залишок для цієї точки даних становить 60 – 60,797 = -0,797 .

Приклад 2: Розрахунок залишку

Ми можемо використати той самий процес, який використовувався вище, щоб обчислити нев’язку для кожної точки даних. Наприклад, давайте обчислимо залишок для другої особи в нашому наборі даних:

Проста лінійна регресія

Друга особина важить 155 фунтів. і зріст 62 дюйми.

Щоб дізнатися очікуваний зріст цієї особи, ми можемо підставити її вагу до рівняння найкращого підходу:

розмір = 32,783 + 0,2001*(вага)

Таким чином, прогнозований розмір цієї особини:

висота = 32,783 + 0,2001*(155)

висота = 63,7985 дюймів

Таким чином, залишкова для цієї точки даних становить 62 – 63,7985 = -1,7985 .

Обчислити всі залишки

Використовуючи той самий метод, що й у попередніх двох прикладах, ми можемо обчислити залишки для кожної точки даних:

Зауважте, що деякі залишки додатні, а інші від’ємні. Якщо скласти всі залишки, то їх сума дорівнюватиме нулю.

Це пояснюється тим, що лінійна регресія знаходить лінію, яка мінімізує загальний квадрат залишків, тому лінія ідеально проходить через дані, причому деякі точки даних лежать над лінією, а інші — під цією лінією.

Переглянути залишки

Пам’ятайте, що залишок – це просто відстань між фактичним значенням даних і значенням, передбаченим найкращою лінією регресії. Ось як ці відстані виглядають візуально на хмарі точок:

Зауважте, що деякі залишки більші за інші. Крім того, деякі залишки додатні, а деякі від’ємні, як ми згадували раніше.

Створення залишкового шляху

Сенс обчислення залишків полягає в тому, щоб побачити, наскільки добре лінія регресії відповідає даним.

Більші залишки вказують на те, що лінія регресії погано відповідає даним, тобто фактичні точки даних не відповідають лінії регресії.

Менші залишки вказують на те, що лінія регресії краще відповідає даним, тобто фактичні точки даних знаходяться ближче до лінії регресії.

Корисним типом графіка для візуалізації всіх залишків одночасно є залишковий графік. Діаграма залишків – це тип графіка, який відображає прогнозовані значення проти залишків для моделі регресії.

Цей тип графіка часто використовується для оцінки того, чи модель лінійної регресії підходить для даного набору даних, і для перевірки гетероскедастичності залишків .

Перегляньте цей підручник , щоб дізнатися, як створити графік залишків для простої моделі лінійної регресії в Excel.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *