Python'da standartlaştırılmış artıklar nasıl hesaplanır?
Artık, birregresyon modelinde gözlemlenen bir değer ile tahmin edilen bir değer arasındaki farktır.
Aşağıdaki şekilde hesaplanır:
Artık = Gözlemlenen değer – Tahmin edilen değer
Gözlemlenen değerleri çizer ve uygun regresyon çizgisini üst üste koyarsak, her gözlem için artıklar, gözlem ile regresyon çizgisi arasındaki dikey mesafe olacaktır:
Bir regresyon modelinde aykırı değerleri tanımlamak için sıklıkla kullandığımız bir tür artık , standartlaştırılmış artık olarak adlandırılır.
Aşağıdaki şekilde hesaplanır:
r ben = e ben / s(e ben ) = e ben / RSE√ 1-h ii
Altın:
- e i : i’inci kalıntı
- RSE: modelin artık standart hatası
- h ii : i’inci gözlemin yükselişi
Pratikte, mutlak değeri 3’ten büyük olan herhangi bir standartlaştırılmış artık değeri genellikle aykırı değer olarak kabul ederiz.
Bu eğitimde Python’da standartlaştırılmış artıkların nasıl hesaplanacağına dair adım adım bir örnek sunulmaktadır.
1. Adım: Verileri girin
Öncelikle Python’da çalışacağımız küçük bir veri kümesi oluşturacağız:
import pandas as pd #create dataset df = pd. DataFrame ({' x ': [8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30], ' y ': [41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57]})
Adım 2: Regresyon modelini yerleştirin
Daha sonra basit bir doğrusal regresyon modeli uygulayacağız:
import statsmodels. api as sm
#define response variable
y = df[' y ']
#define explanatory variable
x = df[' x ']
#add constant to predictor variables
x = sm. add_constant (x)
#fit linear regression model
model = sm. OLS (y,x). fit ()
Adım 3: Standartlaştırılmış artıkları hesaplayın
Daha sonra modelin standartlaştırılmış artıklarını hesaplayacağız:
#create instance of influence influence = model. get_influence () #obtain standardized residuals standardized_residuals = influence. reside_studentized_internal #display standardized residuals print (standardized_residuals) [ 1.40517322 0.81017562 0.07491009 -0.59323342 -1.2482053 -0.64248883 0.59610905 -0.05876884 -2.11711982 -0.066556 0.91057211 1.26973888]
Sonuçlardan, standartlaştırılmış artıkların hiçbirinin mutlak 3 değerini aşmadığını görebiliriz. Dolayısıyla gözlemlerin hiçbiri aykırı görünmüyor.
Adım 4: Standartlaştırılmış artıkları görselleştirin
Son olarak, tahmin değişkeninin değerlerini standartlaştırılmış artıklara göre görselleştirmek için bir dağılım grafiği oluşturabiliriz:
import matplotlib. pyplot as plt
plt. scatter (df.x, standardized_residuals)
plt. xlabel (' x ')
plt. ylabel (' Standardized Residuals ')
plt. axhline (y=0, color=' black ', linestyle=' -- ', linewidth=1)
plt. show ()
Ek kaynaklar
Kalıntılar nelerdir?
Standartlaştırılmış artıklar nelerdir?
R’de standartlaştırılmış artıklar nasıl hesaplanır
Excel’de standartlaştırılmış artıklar nasıl hesaplanır