Що таке економна модель?


Економна модель — це модель, яка досягає бажаного рівня відповідності, використовуючи якомога менше пояснювальних змінних .

Обґрунтування такого типу моделі випливає з ідеї бритви Оккама (іноді її називають «принципом ощадливості»), яка говорить, що найпростіше пояснення, ймовірно, є правильним.

Застосовуючи статистику, слід віддати перевагу моделі, яка має невелику кількість параметрів, але досягає задовільного рівня відповідності, аніж моделі, яка має масу параметрів і досягає лише трохи вищого рівня відповідності.

На це є дві причини:

1. Скупі моделі легше інтерпретувати та зрозуміти. Моделі з меншою кількістю параметрів легше зрозуміти та пояснити.

2. Скупі моделі, як правило, мають більшу здатність передбачити. Моделі з меншою кількістю параметрів, як правило, працюють краще, коли застосовуються до нових даних.

Розгляньте наступні два приклади, щоб проілюструвати ці ідеї.

Приклад 1: Скупі моделі = Легка інтерпретація

Припустімо, що ми хочемо побудувати модель, використовуючи набір пояснювальних змінних, пов’язаних з нерухомістю, для прогнозування цін на нерухомість. Розглянемо наступні дві моделі з їх скоригованим R-квадратом:

Модель 1:

  • Рівняння: Ціна будинку = 8830 + 81*(квадратних футів)
  • Скоригований R2 : 0,7734

Модель 2:

  • Рівняння: ціна будинку = 8921 + 77*(квадратних футів) + 7*(квадратних футів) 2 – 9*(вік) + 600*(спальні) + 38*(ванни)
  • Скоригований R2 : 0,7823

Перша модель має лише одну пояснювальну змінну та скоригований R2 0,7734, тоді як друга модель має п’ять пояснювальних змінних із трохи вищим скоригованим R2 .

Виходячи з принципу економності, ми б віддали перевагу використанню першої моделі, оскільки кожна модель має приблизно однакову здатність пояснити коливання цін на житло, але першу модель набагато легше зрозуміти та пояснити.

Наприклад, у першій моделі ми знаємо, що збільшення площі будинку на одну одиницю пов’язане зі зростанням середньої ціни на будинок на 81 долар. Це просто зрозуміти і пояснити.

Однак у другому прикладі оцінки коефіцієнтів набагато складніше інтерпретувати. Наприклад, додаткова кімната в будинку пов’язана із середнім зростанням ціни будинку на 600 доларів, якщо припустити, що площа будинку, вік будинку та кількість ванних кімнат залишаються незмінними. Це набагато складніше зрозуміти і пояснити.

Приклад 2: економні моделі = кращі прогнози

Скупі моделі також мають тенденцію робити точніші прогнози на нових наборах даних, оскільки вони з меншою ймовірністю переповнять вихідний набір даних.

Загалом, моделі з більшою кількістю параметрів забезпечуватимуть щільнішу посадку та вищі значення R 2 , ніж моделі з меншою кількістю параметрів. На жаль, включення занадто великої кількості параметрів у модель може призвести до того, що модель пристосується до шуму (або «випадковості») даних, а не до справжнього основного зв’язку між пояснювальними змінними. і змінні відповіді.

Це означає, що дуже складна модель із багатьма параметрами, ймовірно, погано працюватиме на новому наборі даних, якого вона ніколи раніше не бачила, порівняно з простішою моделлю з меншою кількістю параметрів.

Як вибрати економну модель

Може бути цілий курс, присвячений темі вибору моделі , але, по суті, вибір економної моделі означає вибір моделі, яка найкраще працює відповідно до метрики.

До загальновживаних показників, які оцінюють моделі на основі їх продуктивності в навчальному наборі даних і кількості параметрів, належать:

1. Інформаційний критерій Akaike (AIC)

AIC моделі можна розрахувати таким чином:

AIC = -2/n * LL + 2 * k/n

золото:

  • n: кількість спостережень у навчальному наборі даних.
  • LL: логарифм правдоподібності моделі на навчальному наборі даних.
  • k: кількість параметрів у моделі.

Використовуючи цей метод, ви можете розрахувати AIC кожної моделі, а потім вибрати модель із найнижчим значенням AIC як найкращу.

Цей підхід надає перевагу більш складним моделям порівняно з наступним методом, BIC.

2. Байєсівський інформаційний критерій (BIC)

BIC моделі можна розрахувати наступним чином:

BIC = -2 * LL + log(n) * k

золото:

  • n: кількість спостережень у навчальному наборі даних.
  • log: натуральний логарифм (за основою e)
  • LL: логарифм правдоподібності моделі на навчальному наборі даних.
  • k: кількість параметрів у моделі.

Використовуючи цей метод, ви можете розрахувати BIC кожної моделі, а потім вибрати модель із найнижчим значенням BIC як найкращу.

Цей підхід надає перевагу моделям з меншою кількістю параметрів порівняно з методом AIC.

3. Мінімальна довжина опису (MDL)

MDL — це спосіб оцінки моделей із галузі теорії інформації. Його можна розрахувати наступним чином:

MDL = L(h) + L(D | h)

золото:

  • h: модель.
  • D: Прогнози, зроблені моделлю.
  • L(h): кількість бітів, необхідних для представлення моделі.
  • L(D | h): кількість бітів, необхідних для представлення прогнозів моделі на навчальних даних.

Використовуючи цей метод, ви можете обчислити MDL кожної моделі, а потім вибрати модель із найнижчим значенням MDL як найкращу.

Залежно від типу проблеми, над якою ви працюєте, один із цих методів – AIC, BIC або MDL – може бути кращим над іншими для вибору економної моделі.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *