Was ist eine einflussreiche beobachtung in der statistik?
In der Statistik ist eine einflussreiche Beobachtung eine Beobachtung in einem Datensatz, die, wenn sie entfernt wird, die Koeffizientenschätzungen eines Regressionsmodells erheblich verändert.
Die gebräuchlichste Methode zur Messung des Einflusses von Beobachtungen ist die Verwendung der Cook-Distanz , die quantifiziert, wie stark sich alle angepassten Werte in einem Regressionsmodell ändern, wenn die i- te Beobachtung entfernt wird.
Im Allgemeinen gilt jede Beobachtung mit einer Cook-Distanz von mehr als 1 als Beobachtung mit hoher Hebelwirkung.
Das folgende Beispiel zeigt, wie die Cook-Distanz für einen bestimmten Datensatz berechnet und interpretiert wird, um potenziell einflussreiche Beobachtungen zu erkennen.
Beispiel: Erkennung einflussreicher Beobachtungen
Angenommen, wir haben den folgenden Datensatz mit 14 Werten:
Nehmen wir nun an, wir passen ein einfaches lineares Regressionsmodell an. Das Regressionsergebnis ist unten dargestellt:
Mithilfe einer Statistiksoftware können wir für jede Beobachtung die folgenden Werte für die Cook-Distanz berechnen:
Beachten Sie, dass die letzte Beobachtung einen Wert hat, der deutlich größer als 1 für die Cook-Distanz ist, was uns sagt, dass es sich um eine einflussreiche Beobachtung handelt.
Angenommen, wir entfernen diesen Wert aus dem Datensatz und passen ein neues einfaches lineares Regressionsmodell an. Die Ausgabe dieses Modells ist unten dargestellt:
Beachten Sie, dass sich die Regressionskoeffizienten für den Achsenabschnitt und x dramatisch geändert haben. Dies zeigt uns, dass das Entfernen der einflussreichen Beobachtung aus dem Datensatz das angepasste Regressionsmodell vollständig verändert hat.
Die folgenden Diagramme zeigen den Unterschied zwischen diesen beiden angepassten Regressionsgleichungen:
Beachten Sie, wie stark die einzelne einflussreiche Beobachtung die Regressionslinie verändert. Indem wir diese Beobachtung entfernten, konnten wir eine Regressionslinie finden, die viel besser zu den Daten passte.
Kommentare
Es ist wichtig zu beachten, dass die Cook-Distanz verwendet werden sollte, um potenziell einflussreiche Beobachtungen zu identifizieren . Nur weil eine Beobachtung einflussreich ist, heißt das nicht zwangsläufig, dass sie aus dem Datensatz entfernt werden sollte.
Zunächst müssen Sie sicherstellen, dass die Beobachtung nicht auf einen Dateneingabefehler oder ein anderes seltsames Ereignis zurückzuführen ist. Wenn sich herausstellt, dass es sich um einen legitimen Wert handelt, können Sie ihn auf eine der folgenden Arten behandeln:
- Entfernen Sie es aus dem Datensatz.
- Belassen Sie es im Datensatz.
- Ersetzen Sie ihn durch einen alternativen Wert wie den Mittelwert oder Median.
Abhängig von Ihrem spezifischen Szenario kann eine dieser Optionen sinnvoller sein als die anderen.
So berechnen Sie den Kochabstand in der Praxis
Die folgenden Tutorials erklären, wie man die Cook-Distanz für einen bestimmten Datensatz in Python und R berechnet:
So berechnen Sie die Cook-Distanz in Python
So berechnen Sie die Cook-Distanz in R