Введение в деревья классификации и регрессии


Когда взаимосвязь между набором переменных-предикторов и переменной отклика является линейной, такие методы, как множественная линейная регрессия, могут создавать точные прогностические модели.

Однако, когда взаимосвязь между набором предикторов и ответом сильно нелинейна и сложна, нелинейные методы могут работать лучше.

Примером нелинейного метода являются деревья классификации и регрессии , часто сокращенно CART .

Как следует из названия, модели CART используют набор переменных-предсказателей для создания деревьев решений , которые прогнозируют значение переменной ответа.

Например, предположим, что у нас есть набор данных, содержащий переменные-предсказатели « Сыгранные годы » и «Средние хоум-раны» , а также переменную ответа « Годовая зарплата» для сотен профессиональных бейсболистов.

Вот как может выглядеть дерево регрессии для этого набора данных:

Пример дерева регрессии

Способ интерпретации дерева следующий:

  • Прогнозируемая зарплата игроков, играющих менее 4,5 лет, составит 225,8 тысяч долларов.
  • Игроки, которые играли более 4,5 лет и более и совершали менее 16,5 хоум-ранов, в среднем имеют прогнозируемую зарплату в размере 577,6 тысяч долларов.
  • Игроки с игровым опытом 4,5 и более лет и в среднем 16,5 хоум-ранов и более имеют ожидаемую зарплату в размере 975,6 тысяч долларов.

Результаты этой модели должны интуитивно иметь смысл: игроки с большим опытом и более средними хоум-ранами, как правило, получают более высокие зарплаты.

Затем мы можем использовать эту модель для прогнозирования зарплаты нового игрока.

Например, предположим, что данный игрок играл 8 лет и в среднем совершал 10 хоумранов в год. Согласно нашей модели, мы прогнозируем, что годовая зарплата этого игрока составит 577,6 тысяч долларов.

БАСКЕТБОЛЬНАЯ модель

Несколько замечаний по дереву:

  • Первая прогнозируемая переменная, расположенная наверху дерева, является наиболее важной, то есть той, которая больше всего влияет на прогноз значения переменной отклика. В этом случае сыгранные годы предсказывают зарплату лучше, чем средний показатель по трассам .
  • Области в нижней части дерева называются листовыми узлами . Это конкретное дерево имеет три конечных узла.

Шаги по созданию моделей CART

Мы можем использовать следующие шаги для создания модели CART для данного набора данных:

Шаг 1. Используйте рекурсивное двоичное разбиение, чтобы вырастить большое дерево на основе обучающих данных.

Во-первых, мы используем жадный алгоритм, называемый рекурсивным двоичным разделением, для выращивания дерева регрессии, используя следующий метод:

  • Считайте, что все переменные-предикторы X 1 , X 2 , … , остаточная стандартная ошибка) являются наименьшими. .
    • Для деревьев классификации мы выбираем предиктор и точку отсечения так, чтобы полученное дерево имело наименьший уровень ошибок классификации.
  • Повторите этот процесс, останавливаясь только тогда, когда каждый конечный узел имеет меньше определенного минимального количества наблюдений.

Этот алгоритм является жадным , поскольку на каждом этапе процесса построения дерева он определяет наилучшее разбиение, основываясь только на этом шаге, вместо того, чтобы заглядывать в будущее и выбирать разбиение, которое приведет к лучшему глобальному дереву на будущем этапе.

Шаг 2. Примените сокращение сложности стоимости к большому дереву, чтобы получить последовательность лучших деревьев на основе α.

После того, как мы вырастили большое дерево, нам нужно его обрезать , используя метод, известный как комплексная обрезка, который работает следующим образом:

  • Для каждого возможного дерева с T терминальными узлами найдите дерево, которое минимизирует RSS + α|T|.
  • Обратите внимание: когда мы увеличиваем значение α, штрафуются деревья с большим количеством конечных узлов. Это гарантирует, что дерево не станет слишком сложным.

В результате этого процесса получается последовательность лучших деревьев для каждого значения α.

Шаг 3: Используйте k-кратную перекрестную проверку, чтобы выбрать α.

Как только мы найдем лучшее дерево для каждого значения α, мы сможем применить k-кратную перекрестную проверку , чтобы выбрать значение α, которое минимизирует ошибку тестирования.

Шаг 4: Выберите окончательный шаблон.

Наконец, мы выбираем окончательную модель как ту, которая соответствует выбранному значению α.

Преимущества и недостатки моделей CART

Модели CART обладают следующими преимуществами :

Однако модели CART имеют следующие недостатки:

  • Они, как правило, не имеют такой точности прогнозирования, как другие алгоритмы нелинейного машинного обучения. Однако за счет кластеризации множества деревьев решений с помощью таких методов, как пакетирование, повышение и случайный лес, можно повысить точность их прогнозирования.

Связанный: Как подогнать деревья классификации и регрессии в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *