Einführung in die lineare diskriminanzanalyse
Wenn wir über eine Reihe von Prädiktorvariablen verfügen und eine Antwortvariable in eine von zwei Klassen klassifizieren möchten, verwenden wir im Allgemeinen die logistische Regression .
Beispielsweise können wir die logistische Regression im folgenden Szenario verwenden:
- Wir möchten anhand der Kreditwürdigkeit und des Bankguthabens vorhersagen, ob ein bestimmter Kunde mit einem Kredit in Zahlungsverzug gerät. (Antwortvariable = „Standard“ oder „Kein Standard“)
Wenn eine Antwortvariable jedoch mehr als zwei mögliche Klassen hat, bevorzugen wir im Allgemeinen die Verwendung einer Methode, die als lineare Diskriminanzanalyse bekannt ist und oft als LDA bezeichnet wird.
Beispielsweise können wir LDA im folgenden Szenario verwenden:
- Wir möchten Punkte pro Spiel und Rebounds pro Spiel verwenden, um vorherzusagen, ob ein bestimmter High-School-Basketballspieler in eine von drei Schulen aufgenommen wird: Division 1, Division 2 oder Division 3.
Obwohl für die Klassifizierung sowohl LDA- als auch logistische Regressionsmodelle verwendet werden, stellt sich heraus, dass LDA viel stabiler ist als die logistische Regression, wenn es darum geht, Vorhersagen für mehrere Klassen zu treffen, und daher der bevorzugte Algorithmus ist, wenn die Antwortvariable mehr als zwei annehmen kann Klassen.
LDA funktioniert im Vergleich zur logistischen Regression auch dann am besten, wenn die Stichprobengröße klein ist. Daher ist sie die bevorzugte Methode, wenn Sie keine großen Stichproben sammeln können.
So erstellen Sie LDA-Modelle
LDA geht von den folgenden Annahmen für einen bestimmten Datensatz aus:
(1) Die Werte jeder Prädiktorvariablen sindnormalverteilt . Das heißt, wenn wir ein Histogramm erstellen würden, um die Werteverteilung für einen bestimmten Prädiktor zu visualisieren, hätte es ungefähr eine „Glockenform“.
(2) Jede Prädiktorvariable hat die gleiche Varianz . Dies ist bei realen Daten fast nie der Fall, weshalb wir normalerweise jede Variable so skalieren, dass sie den gleichen Mittelwert und die gleiche Varianz aufweist, bevor wir tatsächlich ein LDA-Modell anpassen.
Sobald diese Hypothesen verifiziert sind, schätzt LDA die folgenden Werte:
- μ k : Der Durchschnitt aller Trainingsbeobachtungen der k-ten Klasse.
- σ 2 : Der gewichtete Durchschnitt der Stichprobenvarianzen für jede der k Klassen.
- π k : Der Anteil der Trainingsbeobachtungen, die zur k-ten Klasse gehören.
LDA fügt diese Zahlen dann in die folgende Formel ein und ordnet jede Beobachtung X = x der Klasse zu, für die die Formel den größten Wert ergibt:
d k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + log(π k )
Beachten Sie, dass der Name von LDA „linear“ enthält, da der von der obigen Funktion erzeugte Wert aus dem Ergebnis linearer Funktionen von x stammt.
So bereiten Sie Daten für LDA vor
Stellen Sie sicher, dass Ihre Daten die folgenden Anforderungen erfüllen, bevor Sie ein LDA-Modell darauf anwenden:
1. Die Antwortvariable ist kategorisch . LDA-Modelle sind für die Verwendung bei Klassifizierungsproblemen konzipiert, bei denen die Antwortvariable in Klassen oder Kategorien eingeordnet werden kann.
2. Prädiktorvariablen folgen einer Normalverteilung . Stellen Sie zunächst sicher, dass jede Prädiktorvariable ungefähr normalverteilt ist. Wenn nicht, können Siezunächst die Daten transformieren, um die Verteilung normaler zu machen.
3. Jede Prädiktorvariable hat die gleiche Varianz . Wie bereits erwähnt, geht LDA davon aus, dass jede Prädiktorvariable die gleiche Varianz aufweist. Da dies in der Praxis selten der Fall ist, empfiehlt es sich, jede Variable im Datensatz so zu skalieren, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 aufweist.
4. Berücksichtigen Sie extreme Ausreißer. Stellen Sie sicher, dass der Datensatz auf extreme Ausreißer überprüft wird, bevor Sie LDA anwenden. Normalerweise können Sie Ausreißer visuell überprüfen, indem Sie einfach Boxplots oder Streudiagramme verwenden.
Beispiele für die Verwendung der linearen Diskriminanzanalyse
LDA-Modelle werden im realen Leben in einer Vielzahl von Bereichen angewendet. Hier sind einige Beispiele:
1. Marketing . Einzelhandelsunternehmen verwenden LDA häufig, um Käufer in eine von mehreren Kategorien einzuteilen. Sie können beispielsweise ein LDA-Modell erstellen, um mithilfe von Prädiktorvariablen wie Einkommen , jährlichen Gesamtausgaben und Haushaltsgröße vorherzusagen, ob ein bestimmter Käufer geringe, mittlere oder hohe Ausgaben tätigen wird.
2.Medizin . Krankenhäuser und medizinische Forschungsteams verwenden LDA häufig, um vorherzusagen, ob eine bestimmte Gruppe abnormaler Zellen wahrscheinlich zu einer leichten, mittelschweren oder schweren Erkrankung führt.
3. Produktentwicklung . Unternehmen können LDA-Modelle erstellen, um anhand verschiedener Prädiktorvariablen wie Geschlecht , Jahreseinkommen und Häufigkeit der Nutzung ähnlicher Produkte vorherzusagen, ob ein bestimmter Verbraucher sein Produkt täglich, wöchentlich, monatlich oder jährlich verwenden wird.
4. Ökologie. Forscher können LDA-Modelle erstellen, um anhand einer Vielzahl von Prädiktorvariablen wie Größe , jährlicher Kontamination und Verlust vorherzusagen, ob ein bestimmtes Korallenriff einen guten, mäßigen, schlechten oder gefährdeten Gesamtzustand aufweist. Alter .
LDA in R und Python
Die folgenden Tutorials bieten Schritt-für-Schritt-Beispiele zur Durchführung einer linearen Diskriminanzanalyse in R und Python:
Lineare Diskriminanzanalyse in R (Schritt für Schritt)
Lineare Diskriminanzanalyse in Python (Schritt für Schritt)