Eine einführung in partielle kleinste quadrate
Eines der häufigsten Probleme beim maschinellen Lernen ist die Multikollinearität . Dies tritt auf, wenn zwei oder mehr Prädiktorvariablen in einem Datensatz stark korrelieren.
Wenn dies geschieht, kann ein Modell möglicherweise gut an einen Trainingsdatensatz angepasst werden, bei einem neuen Datensatz, den es noch nie gesehen hat, kann es jedoch eine schlechte Leistung erbringen, weil es zu stark an den Trainingsdatensatz angepasst ist. Trainingsset.
Eine Möglichkeit, das Problem der Multikollinearität zu umgehen, besteht darin, die Hauptkomponentenregression zu verwenden, die M lineare Kombinationen (sogenannte „Hauptkomponenten“) der ursprünglichen p- Prädiktorvariablen berechnet und dann die Methode der kleinsten Quadrate verwendet, um ein Modell der linearen Regression mithilfe der Prinzipalregression anzupassen Komponenten als Prädiktoren.
Der Nachteil der Hauptkomponentenregression (PCR) besteht darin, dass sie die Antwortvariable bei der Berechnung der Hauptkomponenten nicht berücksichtigt.
Stattdessen wird nur das Ausmaß der Varianz zwischen den von den Hauptkomponenten erfassten Prädiktorvariablen berücksichtigt. Aus diesem Grund ist es möglich, dass in einigen Fällen die Hauptkomponenten mit den größten Abweichungen die Antwortvariable nicht gut vorhersagen können.
Eine mit der PCR verwandte Technik ist als partielle kleinste Quadrate bekannt. Ähnlich wie bei der PCR berechnet die partielle Methode der kleinsten Quadrate M lineare Kombinationen (sogenannte „PLS-Komponenten“) der ursprünglichen p- Prädiktorvariablen und verwendet die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der PLS-Komponenten als Prädiktoren anzupassen.
Aber im Gegensatz zur PCR versucht die partielle Methode der kleinsten Quadrate, lineare Kombinationen zu finden, die die Variation sowohl in der Antwortvariablen als auch in den Prädiktorvariablen erklären.
Schritte zur Durchführung partieller kleinster Quadrate
In der Praxis werden die folgenden Schritte verwendet, um partielle kleinste Quadrate durchzuführen.
1. Standardisieren Sie die Daten so, dass alle Prädiktorvariablen und die Antwortvariable einen Mittelwert von 0 und eine Standardabweichung von 1 haben. Dadurch wird sichergestellt, dass jede Variable auf derselben Skala gemessen wird.
2. Berechnen Sie Z 1 , … , Z M als die M Linearkombinationen der ursprünglichen p- Prädiktoren.
- Z m = ΣΦ jm _
- Um Z 1 zu berechnen, setzen Sie Φ j1 gleich dem Koeffizienten der einfachen linearen Regression von Y auf X j ist die lineare Kombination von Prädiktoren, die so viel Varianz wie möglich erfasst.
- Um Z 2 zu berechnen, führen Sie für jede Variable eine Regression auf Z 1 durch und nehmen Sie die Residuen. Berechnen Sie dann Z 2 mithilfe dieser orthogonalisierten Daten auf genau die gleiche Weise, wie Z 1 berechnet wurde.
- Wiederholen Sie diesen Vorgang M -mal, um M PLS-Komponenten zu erhalten.
3. Verwenden Sie die Methode der kleinsten Quadrate, um ein lineares Regressionsmodell unter Verwendung der PLS-Komponenten Z 1 , … , Z M als Prädiktoren anzupassen.
4. Verwenden Sie abschließend die k-fache Kreuzvalidierung, um die optimale Anzahl von PLS-Komponenten zu ermitteln, die im Modell beibehalten werden sollen. Die „optimale“ Anzahl der zu behaltenden PLS-Komponenten ist im Allgemeinen die Zahl, die den niedrigsten mittleren quadratischen Testfehler (MSE) erzeugt.
Abschluss
In Fällen, in denen Multikollinearität in einem Datensatz vorhanden ist, ist die partielle Regression der kleinsten Quadrate tendenziell besser als die normale Regression der kleinsten Quadrate. Es ist jedoch eine gute Idee, mehrere unterschiedliche Modelle anzupassen, damit Sie herausfinden können, welches sich am besten auf unbekannte Daten verallgemeinern lässt.
In der Praxis passen wir viele verschiedene Modelltypen (PLS, PCR , Ridge , Lasso , Multiple Linear Regression usw.) an einen Datensatz an und verwenden eine k-fache Kreuzvalidierung, um das Modell zu identifizieren, das den MSE-Test am besten liefert. niedriger auf neue Daten. .