Wprowadzenie do liniowej analizy dyskryminacyjnej

Przez Benjamin Anderson 27 lipca, 2023 Przewodnik 0 komentarzy

Kiedy mamy zestaw zmiennych predykcyjnych i chcemy zaklasyfikować zmienną odpowiedzi do jednej z dwóch klas, zazwyczaj używamy regresji logistycznej .

Na przykład możemy zastosować regresję logistyczną w następującym scenariuszu:

Na podstawie oceny zdolności kredytowej i salda banku chcemy przewidzieć, czy dany klient nie spłaci kredytu. (Zmienna odpowiedzi = „Domyślnie” lub „Brak wartości domyślnej”)

Jeśli jednak zmienna odpowiedzi ma więcej niż dwie możliwe klasy, zazwyczaj wolimy stosować metodę znaną jako liniowa analiza dyskryminacyjna , często nazywana LDA.

Na przykład możemy użyć LDA w następującym scenariuszu:

Na podstawie punktów na mecz i zbiórek na mecz chcemy przewidzieć, czy dany koszykarz z liceum zostanie przyjęty do jednej z trzech szkół: Dywizji 1, Dywizji 2 lub Dywizji 3.

Chociaż do klasyfikacji stosuje się zarówno modele LDA, jak i regresję logistyczną, okazuje się, że LDA jest znacznie bardziej stabilny niż regresja logistyczna, jeśli chodzi o przewidywanie dla wielu klas i dlatego jest preferowanym algorytmem do stosowania, gdy zmienna odpowiedzi może zająć więcej niż dwa zajęcia.

LDA działa również najlepiej, gdy rozmiary próbek są małe w porównaniu z regresją logistyczną, co czyni ją preferowaną metodą, gdy nie można zebrać dużych próbek.

Jak tworzyć modele LDA

LDA przyjmuje następujące założenia na danym zbiorze danych:

(1) Wartości każdej zmiennej predykcyjnej mają rozkład normalny . Oznacza to, że gdybyśmy utworzyli histogram do wizualizacji rozkładu wartości dla danego predyktora, miałby on z grubsza „kształt dzwonu”.

(2) Każda zmienna predykcyjna ma tę samą wariancję . Prawie nigdy nie ma to miejsca w przypadku danych ze świata rzeczywistego, dlatego zazwyczaj skalujemy każdą zmienną tak, aby miała tę samą średnią i wariancję, zanim faktycznie dopasujemy model LDA.

Po zweryfikowaniu tych hipotez LDA szacuje następnie następujące wartości:

μ _k : Średnia wszystkich obserwacji treningowych ^k-tej klasy.
σ ² : Średnia ważona wariancji próbki dla każdej z k klas.
π _k : Proporcja obserwacji uczących należących do ^k-tej klasy.

LDA następnie wstawia te liczby do następującego wzoru i przypisuje każdą obserwację X = x do klasy, dla której wzór daje największą wartość:

re _k (x) = x * (μ _k /σ ² ) – (μ _k ² /2σ ² ) + log(π _k )

Należy zauważyć, że LDA ma w nazwie liniowy , ponieważ wartość wygenerowana przez powyższą funkcję pochodzi z wyniku funkcji liniowych x.

Jak przygotować dane do LDA

Przed zastosowaniem do nich modelu LDA upewnij się, że dane spełniają następujące wymagania:

1. Zmienna odpowiedzi ma charakter kategoryczny . Modele LDA są przeznaczone do stosowania w problemach klasyfikacyjnych, to znaczy tam, gdzie zmienna odpowiedzi może zostać umieszczona w klasach lub kategoriach.

2. Zmienne predykcyjne mają rozkład normalny . Najpierw sprawdź, czy każda zmienna predykcyjna ma w przybliżeniu rozkład normalny. Jeśli nie, możesz najpierw przekształcić dane, aby rozkład był bardziej normalny.

3. Każda zmienna predykcyjna ma tę samą wariancję . Jak wspomniano wcześniej, LDA zakłada, że każda zmienna predykcyjna ma tę samą wariancję. Ponieważ w praktyce rzadko się to zdarza, dobrym pomysłem jest skalowanie każdej zmiennej w zbiorze danych w taki sposób, aby miała średnią 0 i odchylenie standardowe 1.

4. Uwzględnij skrajne wartości odstające. Przed zastosowaniem LDA upewnij się, że w zbiorze danych znajdują się skrajne wartości odstające. Zwykle można wizualnie sprawdzić wartości odstające, korzystając po prostu z wykresów pudełkowych lub wykresów rozrzutu.

Przykłady zastosowania liniowej analizy dyskryminacyjnej

Modele LDA są stosowane w wielu różnych dziedzinach w prawdziwym życiu. Oto kilka przykładów:

1. Marketing . Firmy detaliczne często korzystają z LDA, aby klasyfikować kupujących do jednej z kilku kategorii. Mogą na przykład stworzyć model LDA, aby przewidzieć, czy dany kupujący będzie osobą wydającą mało, średnio czy dużo, korzystając z zmiennych predykcyjnych, takich jak dochód , całkowite roczne wydatki i wielkość gospodarstwa domowego .

2. Medyczne . Szpitale i zespoły badawcze często wykorzystują LDA do przewidywania, czy dana grupa nieprawidłowych komórek może prowadzić do łagodnej, umiarkowanej lub ciężkiej choroby.

3. Rozwój produktu . Firmy mogą tworzyć modele LDA, aby przewidzieć, czy dany konsument będzie korzystał z ich produktu codziennie, co tydzień, co miesiąc czy co rok, w oparciu o różne zmienne predykcyjne, takie jak płeć , roczny dochód i częstotliwość używania podobnych produktów .

4. Ekologia. Naukowcy mogą tworzyć modele LDA, aby przewidzieć, czy ogólny stan rafy koralowej będzie dobry, umiarkowany, zły lub zagrożony, w oparciu o różne zmienne predykcyjne, takie jak wielkość , roczne zanieczyszczenie i straty . wiek .

LDA w R i Pythonie

Poniższe samouczki zawierają szczegółowe przykłady przeprowadzania liniowej analizy dyskryminacyjnej w językach R i Python:

Liniowa analiza dyskryminacyjna w R (krok po kroku)
Liniowa analiza dyskryminacyjna w Pythonie (krok po kroku)

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej