Введение в линейный дискриминантный анализ


Когда у нас есть набор переменных-предикторов и мы хотим классифицировать переменную отклика в один из двух классов, мы обычно используем логистическую регрессию .

Например, мы можем использовать логистическую регрессию в следующем сценарии:

  • Мы хотим использовать кредитный рейтинг и банковский баланс , чтобы предсказать, не сможет ли данный клиент выплатить кредит. (Переменная ответа = «По умолчанию» или «Нет значения по умолчанию»)

Однако, когда переменная ответа имеет более двух возможных классов, мы обычно предпочитаем использовать метод, известный как линейный дискриминантный анализ , часто называемый LDA.

Например, мы можем использовать LDA в следующем сценарии:

  • Мы хотим использовать очки за игру и подборы за игру , чтобы предсказать, будет ли данный баскетболист средней школы принят в одну из трех школ: Дивизион 1, Дивизион 2 или Дивизион 3.

Хотя для классификации используются как модели LDA, так и модели логистической регрессии, оказывается, что LDA гораздо более стабильна, чем логистическая регрессия, когда дело доходит до прогнозирования для нескольких классов, и поэтому является предпочтительным алгоритмом для использования, когда переменная ответа может принимать более двух значений. занятия.

LDA также лучше всего работает, когда размеры выборки малы по сравнению с логистической регрессией, что делает его предпочтительным методом, когда вы не можете собрать большие выборки.

Как создавать модели LDA

LDA делает следующие предположения для данного набора данных:

(1) Значения каждой переменной-предиктора нормально распределены . То есть, если бы мы создали гистограмму для визуализации распределения значений для данного предиктора, она примерно имела бы «форму колокола».

(2) Каждая переменная-предиктор имеет одинаковую дисперсию . Это почти никогда не происходит с реальными данными, поэтому мы обычно масштабируем каждую переменную, чтобы иметь одинаковое среднее значение и дисперсию, прежде чем фактически подгонять модель LDA.

После проверки этих гипотез LDA оценивает следующие значения:

  • μ k : Среднее значение всех обучающих наблюдений k-го класса.
  • σ 2 : Средневзвешенное значение выборочных дисперсий для каждого из k классов.
  • π k : доля обучающих наблюдений, принадлежащих k-му классу.

Затем LDA подставляет эти числа в следующую формулу и присваивает каждому наблюдению X = x класс, для которого формула дает наибольшее значение:

d k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

Обратите внимание, что в названии LDA есть линейное, поскольку значение, создаваемое вышеуказанной функцией, получается из результата линейной функции от x.

Как подготовить данные для LDA

Прежде чем применять к ним модель LDA, убедитесь, что ваши данные соответствуют следующим требованиям:

1. Переменная ответа является категориальной . Модели LDA предназначены для использования в задачах классификации, то есть когда переменная ответа может быть помещена в классы или категории.

2. Переменные-предикторы имеют нормальное распределение . Во-первых, убедитесь, что каждая переменная-предиктор примерно нормально распределена. Если нет, вы можете сначала преобразовать данные , чтобы сделать распределение более нормальным.

3. Каждая переменная-предиктор имеет одинаковую дисперсию . Как упоминалось ранее, LDA предполагает, что каждая переменная-предиктор имеет одинаковую дисперсию. Поскольку на практике это происходит редко, рекомендуется масштабировать каждую переменную в наборе данных так, чтобы ее среднее значение было равно 0, а стандартное отклонение равно 1.

4. Учитывайте крайние выбросы. Прежде чем применять LDA, обязательно проверьте набор данных на наличие экстремальных выбросов. Обычно вы можете проверить наличие выбросов визуально, просто используя коробчатые диаграммы или диаграммы рассеяния.

Примеры использования линейного дискриминантного анализа

Модели LDA применяются в самых разных областях реальной жизни. Вот некоторые примеры:

1. Маркетинг . Розничные компании часто используют LDA для классификации покупателей по одной из нескольких категорий. Например, они могут создать модель LDA, чтобы предсказать, будет ли данный покупатель тратить мало, средне или много, используя переменные-предикторы, такие как доход , общие годовые расходы и размер домохозяйства .

2.Медицинский . Больницы и медицинские исследовательские группы часто используют LDA, чтобы предсказать, приведет ли данная группа аномальных клеток к легкому, умеренному или тяжелому заболеванию.

3. Разработка продукта . Компании могут создавать модели LDA, чтобы предсказать, будет ли определенный потребитель использовать их продукт ежедневно, еженедельно, ежемесячно или ежегодно, на основе различных переменных-предсказателей, таких как пол , годовой доход и частота использования аналогичных продуктов .

4. Экология. Исследователи могут создавать модели LDA, чтобы предсказать, будет ли данный коралловый риф иметь хорошее, среднее, плохое или находящееся под угрозой исчезновения общее состояние здоровья, основываясь на различных переменных-предикторах, таких как размер , ежегодное загрязнение и потери . возраст .

LDA в R и Python

В следующих руководствах представлены пошаговые примеры выполнения линейного дискриминантного анализа в R и Python:

Линейный дискриминантный анализ в R (шаг за шагом)
Линейный дискриминантный анализ в Python (шаг за шагом)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *