Вступ до лінійного дискримінантного аналізу
Коли у нас є набір змінних-прогнозів і ми хочемо класифікувати змінну відповіді в один із двох класів, ми зазвичай використовуємо логістичну регресію .
Наприклад, ми можемо використати логістичну регресію в такому сценарії:
- Ми хочемо використовувати кредитну оцінку та банківський баланс , щоб передбачити, чи даний клієнт не виплатить кредит. (Змінна відповіді = «За замовчуванням» або «Без замовчування»)
Однак, коли змінна відповіді має більше двох можливих класів, ми зазвичай віддаємо перевагу використанню методу, відомого як лінійний дискримінантний аналіз , який часто називають LDA.
Наприклад, ми можемо використовувати LDA у такому сценарії:
- Ми хочемо використовувати очки за гру та підбирання за гру , щоб передбачити, чи буде даний баскетболіст середньої школи прийнятий до однієї з трьох шкіл: Дивізіон 1, Дивізіон 2 або Дивізіон 3.
Хоча для класифікації використовуються як моделі LDA, так і моделі логістичної регресії, виявилося, що LDA є набагато стабільнішою, ніж логістична регресія, коли йдеться про прогнозування для кількох класів, і, отже, є кращим алгоритмом для використання, коли змінна відповіді може займати більше двох класи.
LDA також працює найкраще, коли розмір вибірки невеликий порівняно з логістичною регресією, що робить його кращим методом, коли ви не можете зібрати великі вибірки.
Як створити моделі LDA
LDA робить такі припущення щодо даного набору даних:
(1) Значення кожної змінної предиктора є нормально розподіленими . Тобто, якби ми створили гістограму для візуалізації розподілу значень для певного предиктора, вона мала б приблизно «форму дзвона».
(2) Кожна змінна предиктора має однакову дисперсію . Це майже ніколи не буває в даних реального світу, тому ми зазвичай масштабуємо кожну змінну, щоб мати однакове середнє значення та дисперсію, перш ніж фактично підбирати модель LDA.
Після перевірки цих гіпотез LDA оцінює такі значення:
- μ k : Середнє значення всіх спостережень за навчанням у k-му класі.
- σ 2 : Середнє зважене дисперсій вибірки для кожного з k класів.
- π k : частка навчальних спостережень, які належать до k-го класу.
Потім LDA підключає ці числа до наступної формули та призначає кожне спостереження X = x класу, для якого формула дає найбільше значення:
d k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + log(π k )
Зауважте, що в назві LDA є лінійний, оскільки значення, створене наведеною вище функцією, походить від результату лінійних функцій від x.
Як підготувати дані для LDA
Перш ніж застосовувати до них модель LDA, переконайтеся, що ваші дані відповідають таким вимогам:
1. Змінна відповідь категорична . Моделі LDA призначені для використання в задачах класифікації, тобто коли змінну відповіді можна помістити в класи або категорії.
2. Змінні предикторів мають нормальний розподіл . По-перше, переконайтеся, що кожна змінна предиктора має приблизно нормальний розподіл. Якщо ні, ви можете спочатку перетворити дані , щоб зробити розподіл більш нормальним.
3. Кожна змінна предиктора має однакову дисперсію . Як згадувалося раніше, LDA передбачає, що кожна змінна предиктора має однакову дисперсію. Оскільки на практиці це трапляється рідко, доцільно масштабувати кожну змінну в наборі даних так, щоб вона мала середнє значення 0 і стандартне відхилення 1.
4. Врахуйте екстремальні викиди. Перш ніж застосовувати LDA, переконайтеся, що в наборі даних немає екстремальних відхилень. Як правило, ви можете перевірити наявність викидів візуально, просто використовуючи діаграми прямокутників або діаграм розсіювання.
Приклади використання лінійного дискримінантного аналізу
Моделі LDA застосовуються в широкому спектрі областей у реальному житті. Ось кілька прикладів:
1. Маркетинг . Роздрібні компанії часто використовують LDA для класифікації покупців на одну з кількох категорій. Наприклад, вони можуть створити модель LDA, щоб передбачити, чи буде даний покупець мало, середньо або високо витрачати, використовуючи передбачувані змінні, такі як дохід , загальні річні витрати та розмір домогосподарства .
2.Медичний . Лікарні та медичні дослідницькі групи часто використовують LDA, щоб передбачити, чи може дана група аномальних клітин призвести до легкого, середнього або важкого захворювання.
3. Розробка продукту . Компанії можуть створювати моделі LDA, щоб передбачити, чи буде певний споживач використовувати їхній продукт щодня, щотижня, щомісяця або щорічно, на основі різних змінних прогнозів, таких як стать , річний дохід і частота використання подібних продуктів .
4. Екологія. Дослідники можуть створювати моделі LDA, щоб передбачити, чи буде даний кораловий риф мати добрий, помірний, поганий або загрозливий загальний стан здоров’я на основі різноманітних прогностичних змінних, таких як розмір , річне забруднення та втрати . вік .
LDA в R і Python
У наступних посібниках наведено покрокові приклади того, як виконувати лінійний дискримінантний аналіз у R і Python:
Лінійний дискримінантний аналіз в R (крок за кроком)
Лінійний дискримінантний аналіз у Python (крок за кроком)