Wprowadzenie do liniowej analizy dyskryminacyjnej


Kiedy mamy zestaw zmiennych predykcyjnych i chcemy zaklasyfikować zmienną odpowiedzi do jednej z dwóch klas, zazwyczaj używamy regresji logistycznej .

Na przykład możemy zastosować regresję logistyczną w następującym scenariuszu:

  • Na podstawie oceny zdolności kredytowej i salda banku chcemy przewidzieć, czy dany klient nie spłaci kredytu. (Zmienna odpowiedzi = „Domyślnie” lub „Brak wartości domyślnej”)

Jeśli jednak zmienna odpowiedzi ma więcej niż dwie możliwe klasy, zazwyczaj wolimy stosować metodę znaną jako liniowa analiza dyskryminacyjna , często nazywana LDA.

Na przykład możemy użyć LDA w następującym scenariuszu:

  • Na podstawie punktów na mecz i zbiórek na mecz chcemy przewidzieć, czy dany koszykarz z liceum zostanie przyjęty do jednej z trzech szkół: Dywizji 1, Dywizji 2 lub Dywizji 3.

Chociaż do klasyfikacji stosuje się zarówno modele LDA, jak i regresję logistyczną, okazuje się, że LDA jest znacznie bardziej stabilny niż regresja logistyczna, jeśli chodzi o przewidywanie dla wielu klas i dlatego jest preferowanym algorytmem do stosowania, gdy zmienna odpowiedzi może zająć więcej niż dwa zajęcia.

LDA działa również najlepiej, gdy rozmiary próbek są małe w porównaniu z regresją logistyczną, co czyni ją preferowaną metodą, gdy nie można zebrać dużych próbek.

Jak tworzyć modele LDA

LDA przyjmuje następujące założenia na danym zbiorze danych:

(1) Wartości każdej zmiennej predykcyjnej mają rozkład normalny . Oznacza to, że gdybyśmy utworzyli histogram do wizualizacji rozkładu wartości dla danego predyktora, miałby on z grubsza „kształt dzwonu”.

(2) Każda zmienna predykcyjna ma tę samą wariancję . Prawie nigdy nie ma to miejsca w przypadku danych ze świata rzeczywistego, dlatego zazwyczaj skalujemy każdą zmienną tak, aby miała tę samą średnią i wariancję, zanim faktycznie dopasujemy model LDA.

Po zweryfikowaniu tych hipotez LDA szacuje następnie następujące wartości:

  • μ k : Średnia wszystkich obserwacji treningowych k-tej klasy.
  • σ 2 : Średnia ważona wariancji próbki dla każdej z k klas.
  • π k : Proporcja obserwacji uczących należących do k-tej klasy.

LDA następnie wstawia te liczby do następującego wzoru i przypisuje każdą obserwację X = x do klasy, dla której wzór daje największą wartość:

re k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

Należy zauważyć, że LDA ma w nazwie liniowy , ponieważ wartość wygenerowana przez powyższą funkcję pochodzi z wyniku funkcji liniowych x.

Jak przygotować dane do LDA

Przed zastosowaniem do nich modelu LDA upewnij się, że dane spełniają następujące wymagania:

1. Zmienna odpowiedzi ma charakter kategoryczny . Modele LDA są przeznaczone do stosowania w problemach klasyfikacyjnych, to znaczy tam, gdzie zmienna odpowiedzi może zostać umieszczona w klasach lub kategoriach.

2. Zmienne predykcyjne mają rozkład normalny . Najpierw sprawdź, czy każda zmienna predykcyjna ma w przybliżeniu rozkład normalny. Jeśli nie, możesz najpierw przekształcić dane, aby rozkład był bardziej normalny.

3. Każda zmienna predykcyjna ma tę samą wariancję . Jak wspomniano wcześniej, LDA zakłada, że każda zmienna predykcyjna ma tę samą wariancję. Ponieważ w praktyce rzadko się to zdarza, dobrym pomysłem jest skalowanie każdej zmiennej w zbiorze danych w taki sposób, aby miała średnią 0 i odchylenie standardowe 1.

4. Uwzględnij skrajne wartości odstające. Przed zastosowaniem LDA upewnij się, że w zbiorze danych znajdują się skrajne wartości odstające. Zwykle można wizualnie sprawdzić wartości odstające, korzystając po prostu z wykresów pudełkowych lub wykresów rozrzutu.

Przykłady zastosowania liniowej analizy dyskryminacyjnej

Modele LDA są stosowane w wielu różnych dziedzinach w prawdziwym życiu. Oto kilka przykładów:

1. Marketing . Firmy detaliczne często korzystają z LDA, aby klasyfikować kupujących do jednej z kilku kategorii. Mogą na przykład stworzyć model LDA, aby przewidzieć, czy dany kupujący będzie osobą wydającą mało, średnio czy dużo, korzystając z zmiennych predykcyjnych, takich jak dochód , całkowite roczne wydatki i wielkość gospodarstwa domowego .

2. Medyczne . Szpitale i zespoły badawcze często wykorzystują LDA do przewidywania, czy dana grupa nieprawidłowych komórek może prowadzić do łagodnej, umiarkowanej lub ciężkiej choroby.

3. Rozwój produktu . Firmy mogą tworzyć modele LDA, aby przewidzieć, czy dany konsument będzie korzystał z ich produktu codziennie, co tydzień, co miesiąc czy co rok, w oparciu o różne zmienne predykcyjne, takie jak płeć , roczny dochód i częstotliwość używania podobnych produktów .

4. Ekologia. Naukowcy mogą tworzyć modele LDA, aby przewidzieć, czy ogólny stan rafy koralowej będzie dobry, umiarkowany, zły lub zagrożony, w oparciu o różne zmienne predykcyjne, takie jak wielkość , roczne zanieczyszczenie i straty . wiek .

LDA w R i Pythonie

Poniższe samouczki zawierają szczegółowe przykłady przeprowadzania liniowej analizy dyskryminacyjnej w językach R i Python:

Liniowa analiza dyskryminacyjna w R (krok po kroku)
Liniowa analiza dyskryminacyjna w Pythonie (krok po kroku)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *