Wprowadzenie do liniowej analizy dyskryminacyjnej
Kiedy mamy zestaw zmiennych predykcyjnych i chcemy zaklasyfikować zmienną odpowiedzi do jednej z dwóch klas, zazwyczaj używamy regresji logistycznej .
Na przykład możemy zastosować regresję logistyczną w następującym scenariuszu:
- Na podstawie oceny zdolności kredytowej i salda banku chcemy przewidzieć, czy dany klient nie spłaci kredytu. (Zmienna odpowiedzi = „Domyślnie” lub „Brak wartości domyślnej”)
Jeśli jednak zmienna odpowiedzi ma więcej niż dwie możliwe klasy, zazwyczaj wolimy stosować metodę znaną jako liniowa analiza dyskryminacyjna , często nazywana LDA.
Na przykład możemy użyć LDA w następującym scenariuszu:
- Na podstawie punktów na mecz i zbiórek na mecz chcemy przewidzieć, czy dany koszykarz z liceum zostanie przyjęty do jednej z trzech szkół: Dywizji 1, Dywizji 2 lub Dywizji 3.
Chociaż do klasyfikacji stosuje się zarówno modele LDA, jak i regresję logistyczną, okazuje się, że LDA jest znacznie bardziej stabilny niż regresja logistyczna, jeśli chodzi o przewidywanie dla wielu klas i dlatego jest preferowanym algorytmem do stosowania, gdy zmienna odpowiedzi może zająć więcej niż dwa zajęcia.
LDA działa również najlepiej, gdy rozmiary próbek są małe w porównaniu z regresją logistyczną, co czyni ją preferowaną metodą, gdy nie można zebrać dużych próbek.
Jak tworzyć modele LDA
LDA przyjmuje następujące założenia na danym zbiorze danych:
(1) Wartości każdej zmiennej predykcyjnej mają rozkład normalny . Oznacza to, że gdybyśmy utworzyli histogram do wizualizacji rozkładu wartości dla danego predyktora, miałby on z grubsza „kształt dzwonu”.
(2) Każda zmienna predykcyjna ma tę samą wariancję . Prawie nigdy nie ma to miejsca w przypadku danych ze świata rzeczywistego, dlatego zazwyczaj skalujemy każdą zmienną tak, aby miała tę samą średnią i wariancję, zanim faktycznie dopasujemy model LDA.
Po zweryfikowaniu tych hipotez LDA szacuje następnie następujące wartości:
- μ k : Średnia wszystkich obserwacji treningowych k-tej klasy.
- σ 2 : Średnia ważona wariancji próbki dla każdej z k klas.
- π k : Proporcja obserwacji uczących należących do k-tej klasy.
LDA następnie wstawia te liczby do następującego wzoru i przypisuje każdą obserwację X = x do klasy, dla której wzór daje największą wartość:
re k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + log(π k )
Należy zauważyć, że LDA ma w nazwie liniowy , ponieważ wartość wygenerowana przez powyższą funkcję pochodzi z wyniku funkcji liniowych x.
Jak przygotować dane do LDA
Przed zastosowaniem do nich modelu LDA upewnij się, że dane spełniają następujące wymagania:
1. Zmienna odpowiedzi ma charakter kategoryczny . Modele LDA są przeznaczone do stosowania w problemach klasyfikacyjnych, to znaczy tam, gdzie zmienna odpowiedzi może zostać umieszczona w klasach lub kategoriach.
2. Zmienne predykcyjne mają rozkład normalny . Najpierw sprawdź, czy każda zmienna predykcyjna ma w przybliżeniu rozkład normalny. Jeśli nie, możesz najpierw przekształcić dane, aby rozkład był bardziej normalny.
3. Każda zmienna predykcyjna ma tę samą wariancję . Jak wspomniano wcześniej, LDA zakłada, że każda zmienna predykcyjna ma tę samą wariancję. Ponieważ w praktyce rzadko się to zdarza, dobrym pomysłem jest skalowanie każdej zmiennej w zbiorze danych w taki sposób, aby miała średnią 0 i odchylenie standardowe 1.
4. Uwzględnij skrajne wartości odstające. Przed zastosowaniem LDA upewnij się, że w zbiorze danych znajdują się skrajne wartości odstające. Zwykle można wizualnie sprawdzić wartości odstające, korzystając po prostu z wykresów pudełkowych lub wykresów rozrzutu.
Przykłady zastosowania liniowej analizy dyskryminacyjnej
Modele LDA są stosowane w wielu różnych dziedzinach w prawdziwym życiu. Oto kilka przykładów:
1. Marketing . Firmy detaliczne często korzystają z LDA, aby klasyfikować kupujących do jednej z kilku kategorii. Mogą na przykład stworzyć model LDA, aby przewidzieć, czy dany kupujący będzie osobą wydającą mało, średnio czy dużo, korzystając z zmiennych predykcyjnych, takich jak dochód , całkowite roczne wydatki i wielkość gospodarstwa domowego .
2. Medyczne . Szpitale i zespoły badawcze często wykorzystują LDA do przewidywania, czy dana grupa nieprawidłowych komórek może prowadzić do łagodnej, umiarkowanej lub ciężkiej choroby.
3. Rozwój produktu . Firmy mogą tworzyć modele LDA, aby przewidzieć, czy dany konsument będzie korzystał z ich produktu codziennie, co tydzień, co miesiąc czy co rok, w oparciu o różne zmienne predykcyjne, takie jak płeć , roczny dochód i częstotliwość używania podobnych produktów .
4. Ekologia. Naukowcy mogą tworzyć modele LDA, aby przewidzieć, czy ogólny stan rafy koralowej będzie dobry, umiarkowany, zły lub zagrożony, w oparciu o różne zmienne predykcyjne, takie jak wielkość , roczne zanieczyszczenie i straty . wiek .
LDA w R i Pythonie
Poniższe samouczki zawierają szczegółowe przykłady przeprowadzania liniowej analizy dyskryminacyjnej w językach R i Python:
Liniowa analiza dyskryminacyjna w R (krok po kroku)
Liniowa analiza dyskryminacyjna w Pythonie (krok po kroku)