Що таке економна модель?
Економна модель — це модель, яка досягає бажаного рівня відповідності, використовуючи якомога менше пояснювальних змінних .
Обґрунтування такого типу моделі випливає з ідеї бритви Оккама (іноді її називають «принципом ощадливості»), яка говорить, що найпростіше пояснення, ймовірно, є правильним.
Застосовуючи статистику, слід віддати перевагу моделі, яка має невелику кількість параметрів, але досягає задовільного рівня відповідності, аніж моделі, яка має масу параметрів і досягає лише трохи вищого рівня відповідності.
На це є дві причини:
1. Скупі моделі легше інтерпретувати та зрозуміти. Моделі з меншою кількістю параметрів легше зрозуміти та пояснити.
2. Скупі моделі, як правило, мають більшу здатність передбачити. Моделі з меншою кількістю параметрів, як правило, працюють краще, коли застосовуються до нових даних.
Розгляньте наступні два приклади, щоб проілюструвати ці ідеї.
Приклад 1: Скупі моделі = Легка інтерпретація
Припустімо, що ми хочемо побудувати модель, використовуючи набір пояснювальних змінних, пов’язаних з нерухомістю, для прогнозування цін на нерухомість. Розглянемо наступні дві моделі з їх скоригованим R-квадратом:
Модель 1:
- Рівняння: Ціна будинку = 8830 + 81*(квадратних футів)
- Скоригований R2 : 0,7734
Модель 2:
- Рівняння: ціна будинку = 8921 + 77*(квадратних футів) + 7*(квадратних футів) 2 – 9*(вік) + 600*(спальні) + 38*(ванни)
- Скоригований R2 : 0,7823
Перша модель має лише одну пояснювальну змінну та скоригований R2 0,7734, тоді як друга модель має п’ять пояснювальних змінних із трохи вищим скоригованим R2 .
Виходячи з принципу економності, ми б віддали перевагу використанню першої моделі, оскільки кожна модель має приблизно однакову здатність пояснити коливання цін на житло, але першу модель набагато легше зрозуміти та пояснити.
Наприклад, у першій моделі ми знаємо, що збільшення площі будинку на одну одиницю пов’язане зі зростанням середньої ціни на будинок на 81 долар. Це просто зрозуміти і пояснити.
Однак у другому прикладі оцінки коефіцієнтів набагато складніше інтерпретувати. Наприклад, додаткова кімната в будинку пов’язана із середнім зростанням ціни будинку на 600 доларів, якщо припустити, що площа будинку, вік будинку та кількість ванних кімнат залишаються незмінними. Це набагато складніше зрозуміти і пояснити.
Приклад 2: економні моделі = кращі прогнози
Скупі моделі також мають тенденцію робити точніші прогнози на нових наборах даних, оскільки вони з меншою ймовірністю переповнять вихідний набір даних.
Загалом, моделі з більшою кількістю параметрів забезпечуватимуть щільнішу посадку та вищі значення R 2 , ніж моделі з меншою кількістю параметрів. На жаль, включення занадто великої кількості параметрів у модель може призвести до того, що модель пристосується до шуму (або «випадковості») даних, а не до справжнього основного зв’язку між пояснювальними змінними. і змінні відповіді.
Це означає, що дуже складна модель із багатьма параметрами, ймовірно, погано працюватиме на новому наборі даних, якого вона ніколи раніше не бачила, порівняно з простішою моделлю з меншою кількістю параметрів.
Як вибрати економну модель
Може бути цілий курс, присвячений темі вибору моделі , але, по суті, вибір економної моделі означає вибір моделі, яка найкраще працює відповідно до метрики.
До загальновживаних показників, які оцінюють моделі на основі їх продуктивності в навчальному наборі даних і кількості параметрів, належать:
1. Інформаційний критерій Akaike (AIC)
AIC моделі можна розрахувати таким чином:
AIC = -2/n * LL + 2 * k/n
золото:
- n: кількість спостережень у навчальному наборі даних.
- LL: логарифм правдоподібності моделі на навчальному наборі даних.
- k: кількість параметрів у моделі.
Використовуючи цей метод, ви можете розрахувати AIC кожної моделі, а потім вибрати модель із найнижчим значенням AIC як найкращу.
Цей підхід надає перевагу більш складним моделям порівняно з наступним методом, BIC.
2. Байєсівський інформаційний критерій (BIC)
BIC моделі можна розрахувати наступним чином:
BIC = -2 * LL + log(n) * k
золото:
- n: кількість спостережень у навчальному наборі даних.
- log: натуральний логарифм (за основою e)
- LL: логарифм правдоподібності моделі на навчальному наборі даних.
- k: кількість параметрів у моделі.
Використовуючи цей метод, ви можете розрахувати BIC кожної моделі, а потім вибрати модель із найнижчим значенням BIC як найкращу.
Цей підхід надає перевагу моделям з меншою кількістю параметрів порівняно з методом AIC.
3. Мінімальна довжина опису (MDL)
MDL — це спосіб оцінки моделей із галузі теорії інформації. Його можна розрахувати наступним чином:
MDL = L(h) + L(D | h)
золото:
- h: модель.
- D: Прогнози, зроблені моделлю.
- L(h): кількість бітів, необхідних для представлення моделі.
- L(D | h): кількість бітів, необхідних для представлення прогнозів моделі на навчальних даних.
Використовуючи цей метод, ви можете обчислити MDL кожної моделі, а потім вибрати модель із найнижчим значенням MDL як найкращу.
Залежно від типу проблеми, над якою ви працюєте, один із цих методів – AIC, BIC або MDL – може бути кращим над іншими для вибору економної моделі.