Простий вступ до випадкових лісів
Коли зв’язок між набором змінних предикторів і змінною відповіді дуже складний, ми часто використовуємо нелінійні методи для моделювання зв’язку між ними.
Одним із таких методів є дерева класифікації та регресії (часто скорочено CART), які використовують набір змінних предикторів для створення дерев рішень , які передбачають значення змінної відповіді.
Перевага дерев рішень полягає в тому, що їх легко інтерпретувати та візуалізувати. Проблема полягає в тому, що вони схильні страждати від високої дисперсії . Тобто, якщо ми розділимо набір даних на дві половини та застосуємо дерево рішень до обох половин, результати можуть бути дуже різними.
Одним із способів зменшити дисперсію дерев рішень є використання методу, відомого як bagging , який працює наступним чином:
1. Візьміть b початкових зразків із вихідного набору даних.
2. Створіть дерево рішень для кожного зразка початкового завантаження.
3. Усередніть прогнози з кожного дерева, щоб отримати остаточну модель.
Перевага цього підходу полягає в тому, що кластерна модель, як правило, забезпечує покращення рівня помилок тестування порівняно з одним деревом рішень.
Недоліком є те, що прогнози з колекції дерев у мішках можуть мати високу корельацію, якщо в наборі даних є дуже сильний предиктор. У цьому випадку більшість або всі пакетовані дерева використовуватимуть цей предиктор для першого розбиття, в результаті чого дерева будуть схожі одне на одного та мають висококорельовані прогнози.
Отже, коли ми усереднюємо прогнози з кожного дерева, щоб отримати остаточну модель, можливо, ця модель насправді не зменшує дисперсію порівняно з одним деревом рішень.
Один із способів вирішення цієї проблеми — використання методу, відомого як випадкові ліси .
Що таке випадкові ліси?
Подібно до пакетування, випадкові ліси також беруть початкові зразки з оригінального набору даних.
Однак при побудові дерева рішень для кожної початкової вибірки кожного разу, коли розглядається розбиття в дереві, лише випадкова вибірка з m предикторів вважається кандидатом на поділ серед повного набору p предикторів.
Отже, ось повний метод, який використовують випадкові ліси для створення моделі:
1. Візьміть b початкових зразків із вихідного набору даних.
2. Створіть дерево рішень для кожного зразка початкового завантаження.
- Під час побудови дерева кожного разу, коли розглядається розбиття, лише випадкова вибірка з m предикторів вважається кандидатами на розщеплення з повного набору p предикторів.
3. Усередніть прогнози з кожного дерева, щоб отримати остаточну модель.
За допомогою цього методу колекція дерев у випадковому лісі декорується відповідно до дерев, отриманих за допомогою пакетування.
Отже, коли ми беремо середні прогнози з кожного дерева, щоб отримати остаточну модель, вона, як правило, має меншу варіабельність і призводить до нижчого рівня помилок тестування, ніж пакетна модель.
Використовуючи випадкові ліси, ми зазвичай розглядаємо предиктори m = √ p як кандидати на розділення кожного разу, коли ми розбиваємо дерево рішень.
Наприклад, якщо у нас є p = 16 предикторів у наборі даних, ми зазвичай розглядаємо тільки m = √16 = 4 предиктори як потенційні кандидати для кожного розбиття.
Технічна примітка:
Цікаво, що якщо ми вибираємо m = p (тобто ми розглядаємо всі предиктори як кандидати при кожному розподілі), це просто еквівалентно використанню пакетування.
Оцінка вихідних помилок
Подібно до пакетування, ми можемо обчислити помилку тестування моделі випадкового лісу за допомогою оцінки поза пакетом .
Можна показати, що кожна вибірка початкового завантаження містить приблизно 2/3 спостережень з вихідного набору даних. Решта третини спостережень, які не використовуються для підгонки дерева, називаються спостереженнями поза мішком (OOB) .
Ми можемо передбачити значення i-го спостереження у вихідному наборі даних, взявши середнє передбачення з кожного з дерев, у якому це спостереження було OOB.
Ми можемо використовувати цей підхід, щоб зробити прогноз для всіх n спостережень у вихідному наборі даних і, таким чином, обчислити частоту помилок, яка є дійсною оцінкою помилки тестування.
Перевага використання цього підходу для оцінки похибки тесту полягає в тому, що він набагато швидший, ніж k-кратна перехресна перевірка , особливо коли набір даних великий.
Переваги та недоліки випадкових лісів
Випадкові ліси пропонують такі переваги :
- У більшості випадків випадкові ліси запропонують покращення точності в порівнянні з пакетними моделями і особливо в порівнянні з одиночними деревами рішень.
- Випадкові ліси стійкі до викидів.
- Для використання випадкових лісів попередня обробка не потрібна.
Однак випадкові ліси мають такі потенційні недоліки:
- Їх важко інтерпретувати.
- Вони можуть бути обчислювально інтенсивними (тобто повільними) для використання великих наборів даних.
На практиці дослідники даних зазвичай використовують випадкові ліси, щоб максимізувати точність прогнозування, тому той факт, що їх важко інтерпретувати, зазвичай не є проблемою.