So berechnen sie standardisierte residuen in python
Ein Residuum ist die Differenz zwischen einem beobachteten Wert und einem vorhergesagten Wert in einemRegressionsmodell .
Es wird wie folgt berechnet:
Residuum = Beobachteter Wert – Vorhergesagter Wert
Wenn wir die beobachteten Werte grafisch darstellen und die angepasste Regressionslinie überlagern, wären die Residuen für jede Beobachtung der vertikale Abstand zwischen der Beobachtung und der Regressionslinie:
Eine Art von Residuen, die wir häufig verwenden, um Ausreißer in einem Regressionsmodell zu identifizieren, wird als standardisiertes Residuum bezeichnet.
Es wird wie folgt berechnet:
r i = e i / s(e i ) = e i / RSE√ 1-h ii
Gold:
- e i : Der i- te Rest
- RSE: der verbleibende Standardfehler des Modells
- h ii : Der Aufstieg der i-ten Beobachtung
In der Praxis betrachten wir häufig jedes standardisierte Residuum, dessen absoluter Wert größer als 3 ist, als Ausreißer.
Dieses Tutorial bietet ein schrittweises Beispiel für die Berechnung standardisierter Residuen in Python.
Schritt 1: Geben Sie die Daten ein
Zuerst erstellen wir einen kleinen Datensatz, mit dem wir in Python arbeiten können:
import pandas as pd #create dataset df = pd. DataFrame ({' x ': [8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30], ' y ': [41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57]})
Schritt 2: Passen Sie das Regressionsmodell an
Als nächstes passen wir ein einfaches lineares Regressionsmodell an:
import statsmodels. api as sm
#define response variable
y = df[' y ']
#define explanatory variable
x = df[' x ']
#add constant to predictor variables
x = sm. add_constant (x)
#fit linear regression model
model = sm. OLS (y,x). fit ()
Schritt 3: Berechnen Sie standardisierte Residuen
Als nächstes berechnen wir die standardisierten Residuen des Modells:
#create instance of influence influence = model. get_influence () #obtain standardized residuals standardized_residuals = influence. reside_studentized_internal #display standardized residuals print (standardized_residuals) [ 1.40517322 0.81017562 0.07491009 -0.59323342 -1.2482053 -0.64248883 0.59610905 -0.05876884 -2.11711982 -0.066556 0.91057211 1.26973888]
Anhand der Ergebnisse können wir erkennen, dass keines der standardisierten Residuen einen absoluten Wert von 3 überschreitet. Somit scheint keine der Beobachtungen Ausreißer zu sein.
Schritt 4: Visualisieren Sie die standardisierten Residuen
Schließlich können wir ein Streudiagramm erstellen, um die Werte der Prädiktorvariablen gegenüber den standardisierten Residuen zu visualisieren:
import matplotlib. pyplot as plt
plt. scatter (df.x, standardized_residuals)
plt. xlabel (' x ')
plt. ylabel (' Standardized Residuals ')
plt. axhline (y=0, color=' black ', linestyle=' -- ', linewidth=1)
plt. show ()
Zusätzliche Ressourcen
Was sind Rückstände?
Was sind standardisierte Residuen?
So berechnen Sie standardisierte Residuen in R
So berechnen Sie standardisierte Residuen in Excel