Eine einführung in die hauptkomponentenregression
Eines der häufigsten Probleme beim Erstellen von Modellen ist die Multikollinearität . Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korrelieren.
Wenn dies geschieht, kann ein bestimmtes Modell möglicherweise gut an einen Trainingsdatensatz angepasst werden, bei einem neuen Datensatz, den es noch nie gesehen hat, wird es jedoch wahrscheinlich eine schlechte Leistung erbringen, da es zu stark an den Trainingssatz angepasst ist.
Eine Möglichkeit, eine Überanpassung zu vermeiden, besteht darin, eine Teilmengenauswahlmethode zu verwenden, wie zum Beispiel:
Bei diesen Methoden wird versucht, irrelevante Prädiktoren aus dem Modell zu entfernen, sodass im endgültigen Modell nur die wichtigsten Prädiktoren übrig bleiben, die Variationen in der Antwortvariablen vorhersagen können.
Eine andere Möglichkeit, eine Überanpassung zu vermeiden, besteht darin, eine Art Regularisierungsmethode zu verwenden, wie zum Beispiel:
Mit diesen Methoden wird versucht, die Koeffizienten eines Modells einzuschränken oder zu regulieren , um die Varianz zu verringern und so Modelle zu erzeugen, die sich gut auf neue Daten übertragen lassen.
Ein völlig anderer Ansatz zum Umgang mit Multikollinearität ist die sogenannte Dimensionsreduktion .
Eine gängige Methode zur Dimensionsreduktion ist die sogenannte Hauptkomponentenregression , die wie folgt funktioniert:
1. Angenommen , ein gegebener Datensatz enthält p Prädiktoren :
2. Berechnen Sie Z 1 , … , Z M als die M Linearkombinationen der ursprünglichen p- Prädiktoren.
- Z m = ΣΦ jm _
- Z 1 ist die lineare Kombination von Prädiktoren, die so viel Varianz wie möglich erfasst.
- Z 2 ist die nächste lineare Kombination von Prädiktoren, die die größte Varianz erfasst und gleichzeitig orthogonal (dh unkorreliert) zu Z 1 ist.
- Z 3 ist dann die nächste lineare Kombination von Prädiktoren, die die größte Varianz erfasst und gleichzeitig orthogonal zu Z 2 ist.
- Und so weiter.
3. Verwenden Sie die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell anzupassen, das die ersten M Hauptkomponenten Z 1 , …, Z M als Prädiktoren verwendet.
Der Begriff Dimensionsreduktion ergibt sich aus der Tatsache, dass diese Methode nur M+1 Koeffizienten anstelle von p+1 Koeffizienten schätzen darf, wenn M < p.
Mit anderen Worten: Die Dimension des Problems wurde von p+1 auf M+1 reduziert.
In vielen Fällen, in denen Multikollinearität in einem Datensatz vorhanden ist, kann die Hauptkomponentenregression ein Modell erzeugen, das sich besser auf neue Daten verallgemeinern lässt als die herkömmliche multiple lineare Regression .
Schritte zur Durchführung der Hauptkomponentenregression
In der Praxis werden die folgenden Schritte verwendet, um eine Hauptkomponentenregression durchzuführen:
1. Standardisieren Sie die Prädiktoren.
Zunächst standardisieren wir die Daten normalerweise so, dass jede Prädiktorvariable einen Mittelwert von 0 und eine Standardabweichung von 1 hat. Dies verhindert, dass ein Prädiktor zu viel Einfluss hat, insbesondere wenn er in verschiedenen Einheiten gemessen wird (c, d. h. wenn 1 ). wird in Zoll gemessen). und X 2 wird in Yards gemessen).
2. Berechnen Sie die Hauptkomponenten und führen Sie eine lineare Regression durch, wobei Sie die Hauptkomponenten als Prädiktoren verwenden.
Als nächstes berechnen wir die Hauptkomponenten und verwenden die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell anzupassen, das die ersten M Hauptkomponenten Z 1 , …, Z M als Prädiktoren verwendet.
3. Entscheiden Sie, wie viele Hauptkomponenten Sie behalten möchten.
Als nächstes verwenden wir eine k-fache Kreuzvalidierung, um die optimale Anzahl von Hauptkomponenten zu finden, die im Modell beibehalten werden sollen. Die „optimale“ Anzahl der beizubehaltenden Hauptkomponenten ist im Allgemeinen die Zahl, die den niedrigsten mittleren quadratischen Fehler (MSE) des Tests erzeugt.
Vor- und Nachteile der Hauptkomponentenregression
Die Hauptkomponentenregression (PCR) bietet folgende Vorteile :
- Die PCR weist tendenziell eine gute Leistung auf, wenn die ersten Hauptkomponenten in der Lage sind, den größten Teil der Variation in den Prädiktoren sowie die Beziehung zur Antwortvariablen zu erfassen.
- PCR kann selbst dann gute Ergebnisse erzielen, wenn die Prädiktorvariablen stark korreliert sind, da sie Hauptkomponenten erzeugt, die orthogonal (dh unkorreliert) zueinander sind.
- Bei der PCR müssen Sie nicht auswählen, welche Prädiktorvariablen aus dem Modell entfernt werden sollen, da jede Hauptkomponente eine lineare Kombination aller Prädiktorvariablen verwendet.
- Im Gegensatz zur multiplen linearen Regression kann die PCR verwendet werden, wenn mehr Prädiktorvariablen als Beobachtungen vorhanden sind.
PCR hat jedoch einen Nachteil:
- Die PCR berücksichtigt die Antwortvariable nicht bei der Entscheidung, welche Hauptkomponenten beibehalten oder entfernt werden sollen. Stattdessen wird nur das Ausmaß der Varianz zwischen den von den Hauptkomponenten erfassten Prädiktorvariablen berücksichtigt. Es ist möglich, dass in einigen Fällen die Hauptkomponenten mit den größten Unterschieden die Antwortvariable nicht gut vorhersagen können.
In der Praxis passen wir viele verschiedene Modelltypen an (PCR, Ridge, Lasso, multiple lineare Regression usw.) und verwenden eine k-fache Kreuzvalidierung, um das Modell zu identifizieren, das den niedrigsten MSE-Test für die neuen Daten liefert.
In Fällen, in denen im Originaldatensatz Multikollinearität vorhanden ist (was häufig der Fall ist), ist die Leistung der PCR tendenziell besser als die der gewöhnlichen Regression der kleinsten Quadrate. Es ist jedoch eine gute Idee, mehrere unterschiedliche Modelle anzupassen, damit Sie herausfinden können, welches sich am besten auf unbekannte Daten verallgemeinern lässt.
Hauptkomponentenregression in R & Python
Die folgenden Tutorials zeigen, wie man eine Hauptkomponentenregression in R und Python durchführt:
Hauptkomponentenregression in R (Schritt für Schritt)
Hauptkomponentenregression in Python (Schritt für Schritt)