So berechnen sie standardisierte residuen in python


Ein Residuum ist die Differenz zwischen einem beobachteten Wert und einem vorhergesagten Wert in einemRegressionsmodell .

Es wird wie folgt berechnet:

Residuum = Beobachteter Wert – Vorhergesagter Wert

Wenn wir die beobachteten Werte grafisch darstellen und die angepasste Regressionslinie überlagern, wären die Residuen für jede Beobachtung der vertikale Abstand zwischen der Beobachtung und der Regressionslinie:

Beispiel für ein Residuum in der Statistik

Eine Art von Residuen, die wir häufig verwenden, um Ausreißer in einem Regressionsmodell zu identifizieren, wird als standardisiertes Residuum bezeichnet.

Es wird wie folgt berechnet:

r i = e i / s(e i ) = e i / RSE√ 1-h ii

Gold:

  • e i : Der i- te Rest
  • RSE: der verbleibende Standardfehler des Modells
  • h ii : Der Aufstieg der i-ten Beobachtung

In der Praxis betrachten wir häufig jedes standardisierte Residuum, dessen absoluter Wert größer als 3 ist, als Ausreißer.

Dieses Tutorial bietet ein schrittweises Beispiel für die Berechnung standardisierter Residuen in Python.

Schritt 1: Geben Sie die Daten ein

Zuerst erstellen wir einen kleinen Datensatz, mit dem wir in Python arbeiten können:

 import pandas as pd

#create dataset
df = pd. DataFrame ({' x ': [8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30],
                   ' y ': [41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57]})

Schritt 2: Passen Sie das Regressionsmodell an

Als nächstes passen wir ein einfaches lineares Regressionsmodell an:

 import statsmodels. api as sm

#define response variable
y = df[' y ']

#define explanatory variable
x = df[' x ']

#add constant to predictor variables
x = sm. add_constant (x)

#fit linear regression model
model = sm. OLS (y,x). fit ()

Schritt 3: Berechnen Sie standardisierte Residuen

Als nächstes berechnen wir die standardisierten Residuen des Modells:

 #create instance of influence
influence = model. get_influence ()

#obtain standardized residuals
standardized_residuals = influence. reside_studentized_internal

#display standardized residuals
print (standardized_residuals)

[ 1.40517322 0.81017562 0.07491009 -0.59323342 -1.2482053 -0.64248883
  0.59610905 -0.05876884 -2.11711982 -0.066556 0.91057211 1.26973888]

Anhand der Ergebnisse können wir erkennen, dass keines der standardisierten Residuen einen absoluten Wert von 3 überschreitet. Somit scheint keine der Beobachtungen Ausreißer zu sein.

Schritt 4: Visualisieren Sie die standardisierten Residuen

Schließlich können wir ein Streudiagramm erstellen, um die Werte der Prädiktorvariablen gegenüber den standardisierten Residuen zu visualisieren:

 import matplotlib. pyplot as plt

plt. scatter (df.x, standardized_residuals)
plt. xlabel (' x ')
plt. ylabel (' Standardized Residuals ')
plt. axhline (y=0, color=' black ', linestyle=' -- ', linewidth=1)
plt. show ()

Zusätzliche Ressourcen

Was sind Rückstände?
Was sind standardisierte Residuen?
So berechnen Sie standardisierte Residuen in R
So berechnen Sie standardisierte Residuen in Excel

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert