Як робити прогнози за допомогою лінійної регресії
Лінійна регресія – це метод, який ми можемо використати для кількісного визначення зв’язку між однією або декількома змінними предиктора та змінною відповіді .
Однією з найпоширеніших причин підгонки регресійної моделі є використання моделі для прогнозування значень нових спостережень.
Ми використовуємо такі кроки, щоб зробити прогнози за допомогою регресійної моделі:
- Крок 1: Зберіть дані.
- Крок 2. Пристосуйте регресійну модель до даних.
- Крок 3. Переконайтеся, що модель відповідає даним.
- Крок 4. Використовуйте підігнане рівняння регресії, щоб передбачити значення нових спостережень.
У наведених нижче прикладах показано, як використовувати регресійні моделі для прогнозування.
Приклад 1: Створення прогнозів за допомогою простої моделі лінійної регресії
Припустимо, лікар збирає дані про зріст (у дюймах) і вагу (у фунтах) 50 пацієнтів.
Потім він відповідає моделі простої лінійної регресії, використовуючи «вагу» як змінну прогностику та «зріст» як змінну відповіді.
Зібране рівняння регресії таке:
Розмір = 32,7830 + 0,2001*(вага)
Перевіривши, чи виконуються припущення моделі лінійної регресії, лікар робить висновок, що модель добре відповідає даним.
Потім він може використовувати модель для прогнозування росту нових пацієнтів на основі їх ваги.
Наприклад, скажімо, новий пацієнт важить 170 фунтів. Використовуючи модель, ми передбачили, що цей пацієнт матиме зріст 66,8 дюймів:
Висота = 32,7830 + 0,2001*(170) = 66,8 дюймів
Приклад 2: Створення прогнозів за допомогою моделі множинної лінійної регресії
Припускається, що економіст збирає дані про загальну кількість років навчання, відпрацьовані години за тиждень і річний дохід 30 осіб.
Потім він відповідає моделі множинної лінійної регресії, використовуючи «загальну кількість років навчання» та «щотижневу кількість відпрацьованих годин» як змінну прогнозу та «річний дохід» як змінну відповіді.
Зібране рівняння регресії таке:
Дохід = 1342,29 + 3324,33*(роки навчання) + 765,88*(відпрацьовані години за тиждень)
Перевіривши, чи виконуються припущення моделі лінійної регресії, економіст робить висновок, що модель добре відповідає даним.
Потім він може використовувати модель для прогнозування річного доходу нової особи на основі загальної кількості років навчання та відпрацьованих годин за тиждень.
Наприклад, припустимо, нова особа має 16 років освіти в цілому і працює в середньому 40 годин на тиждень. Використовуючи цю модель, ми передбачимо, що ця особа матиме річний дохід 85 166,77 доларів США:
Дохід = 1342,29 + 3324,33*(16) + 765,88*(45) = 85166,77 дол.
Про використання довірчих інтервалів
Коли ви використовуєте регресійну модель для прогнозування нових спостережень, значення, передбачене регресійною моделлю, називається точковою оцінкою .
Хоча точкова оцінка представляє нашу найкращу оцінку цінності нового спостереження, навряд чи вона точно відповідатиме цінності нового спостереження.
Отже, щоб зафіксувати цю невизначеність, ми можемо створити довірчий інтервал – діапазон значень, який, імовірно, міститиме параметр сукупності з певним рівнем довіри.
Наприклад, замість того, щоб прогнозувати, що нова людина матиме зріст 66,8 дюймів, ми можемо створити наступний довірчий інтервал:
95% довірчий інтервал = [64,8 дюйма, 68,8 дюйма]
Ми б інтерпретували цей інтервал так, що ми на 95% впевнені, що фактичний зріст цієї людини становить від 64,8 дюймів до 68,8 дюймів.
Запобіжні заходи під час прогнозування
Використовуючи регресійну модель для прогнозування, пам’ятайте про наступне:
1. Використовуйте модель лише для прогнозування в межах діапазону даних, які використовуються для оцінки регресійної моделі.
Наприклад, припустімо, що ми підбираємо регресійну модель за допомогою змінної предиктора «вага», а вага осіб у вибірці, яку ми використали для оцінки моделі, становить від 120 до 180 фунтів.
Використовувати цю модель для оцінки зросту особи вагою 200 фунтів було б неприйнятно, оскільки це виходить за межі діапазону змінної предиктора, яку ми використовували для оцінки моделі.
Цілком можливо, що співвідношення між вагою та зростом відрізняється за межами діапазону від 120 до 180 фунтів. Тому ми не повинні використовувати модель для оцінки росту людини вагою 200 фунтів.
2. Використовуйте модель лише для того, щоб робити прогнози для сукупності, яку ви відібрали.
Наприклад, припустімо, що населення економіст вибирає з вибірки всіх людей, які живуть у певному місті.
Нам слід використовувати лише адаптовану регресійну модель для прогнозування річного доходу людей у цьому місті, оскільки вся вибірка, використана для підгонки моделі, жила в цьому місті.
Додаткові ресурси
Вступ до простої лінійної регресії
Вступ до множинної лінійної регресії
Вступ до довірчих інтервалів
Чотири припущення лінійної регресії