Розуміння стандартної помилки регресії


Коли ми адаптуємо регресійну модель до набору даних, нас часто цікавить, наскільки добре регресійна модель «підходить» до набору даних. Дві метрики, які зазвичай використовуються для вимірювання відповідності, включають R у квадраті ( R2 ) і стандартну помилку регресії , яку часто позначають S.

У цьому посібнику пояснюється, як інтерпретувати стандартну помилку регресії (S), а також чому вона може надати більше корисної інформації, ніж R 2 .

Стандартна помилка проти R-квадрату в регресії

Припустімо, що у нас є простий набір даних, який показує, скільки годин 12 студентів навчалися на день протягом місяця перед важливим іспитом, а також їхні оцінки за іспит:

Якщо підібрати просту модель лінійної регресії до цього набору даних у Excel, ми отримаємо такий результат:

R у квадраті — частка дисперсії у змінній відповіді, яку можна пояснити змінною предиктора. У цьому випадку 65,76% розбіжності в іспитових балах можна пояснити кількістю годин, витрачених на навчання.

Стандартна помилка регресії – це середня відстань між спостережуваними значеннями та лінією регресії. При цьому спостережувані значення відхиляються в середньому на 4,89 одиниці від лінії регресії.

Якщо ми нанесемо фактичні точки даних на лінію регресії, ми зможемо побачити це більш чітко:

Зауважте, що деякі спостереження лежать дуже близько до лінії регресії, а інші – ні. Але в середньому спостережувані значення відхиляються на 4,19 одиниці від лінії регресії.

Стандартна помилка регресії особливо корисна, оскільки її можна використовувати для оцінки точності прогнозів. Приблизно 95% спостереження має бути в межах +/- двох стандартних помилок регресії, що є швидким наближенням 95% інтервалу передбачення.

Якщо ми хочемо робити прогнози за допомогою моделі регресії, стандартна помилка регресії може бути більш корисною мірою, ніж R-квадрат, оскільки вона дає нам уявлення про те, наскільки точні наші прогнози в одиницях вимірювання.

Щоб проілюструвати, чому стандартна помилка регресії може бути більш корисним показником для оцінки «відповідності» моделі, розглянемо інший приклад набору даних, який показує, скільки годин 12 студентів навчалися на день протягом одного місяця перед важливим іспитом, а також їхній результат іспиту:

Зауважте, що це той самий набір даних, що й раніше, за винятком того, що всі s-значення зменшені вдвічі . Таким чином, студенти в цьому наборі даних навчалися рівно половину часу, ніж студенти в попередньому наборі даних, і отримали рівно половину оцінки за іспит.

Якщо підібрати просту модель лінійної регресії до цього набору даних у Excel, ми отримаємо такий результат:

Зверніть увагу, що R у квадраті 65,76% точно такий же, як і в попередньому прикладі.

Однак стандартна помилка регресії становить 2,095 , що рівно половині стандартної помилки регресії в попередньому прикладі.

Якщо ми нанесемо фактичні точки даних на лінію регресії, ми зможемо побачити це більш чітко:

Зверніть увагу, як спостереження згруповані набагато тісніше навколо лінії регресії. В середньому спостережувані значення розташовані на відстані 2095 одиниць від лінії регресії.

Таким чином, незважаючи на те, що обидві регресійні моделі мають R-квадрат 65,76% , ми знаємо, що друга модель забезпечить більш точні прогнози, оскільки вона має меншу стандартну помилку регресії.

Переваги використання стандартної помилки

Стандартну помилку регресії (S) часто корисніше знати, ніж R-квадрат моделі, оскільки вона дає нам фактичні одиниці. Якщо ми хочемо використовувати регресійну модель для створення прогнозів, S може дуже легко сказати нам, чи є модель достатньо точною, щоб використовувати її для цілей прогнозування.

Наприклад, припустімо, що ми хочемо створити 95%-ий інтервал прогнозування, у якому ми можемо передбачити результати іспиту з точністю до 6 балів від фактичного результату.

Наша перша модель має R-квадрат 65,76%, але це нічого не говорить нам про точність нашого інтервалу передбачення. На щастя, ми також знаємо, що перша модель має S 4,19. Це означає, що 95%-й інтервал передбачення матиме ширину приблизно 2*4,19 = +/- 8,38 одиниць, що є занадто широким для нашого інтервалу передбачення.

Наша друга модель також має R-квадрат 65,76%, але знову ж таки, це нічого не говорить нам про точність нашого інтервалу передбачення. Однак ми знаємо, що друга модель має S 2,095. Це означає, що 95%-й інтервал передбачення матиме приблизно 2*2,095 = +/- 4,19 одиниць ширини, що менше ніж 6 і, отже, достатньо точний, щоб використовувати його для створення інтервалів передбачення.

Подальше читання

Вступ до простої лінійної регресії
Що таке хороше значення R-квадрат?

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *