Python'da standartlaştırılmış artıklar nasıl hesaplanır?


Artık, birregresyon modelinde gözlemlenen bir değer ile tahmin edilen bir değer arasındaki farktır.

Aşağıdaki şekilde hesaplanır:

Artık = Gözlemlenen değer – Tahmin edilen değer

Gözlemlenen değerleri çizer ve uygun regresyon çizgisini üst üste koyarsak, her gözlem için artıklar, gözlem ile regresyon çizgisi arasındaki dikey mesafe olacaktır:

İstatistiklerde artık örneği

Bir regresyon modelinde aykırı değerleri tanımlamak için sıklıkla kullandığımız bir tür artık , standartlaştırılmış artık olarak adlandırılır.

Aşağıdaki şekilde hesaplanır:

r ben = e ben / s(e ben ) = e ben / RSE√ 1-h ii

Altın:

  • e i : i’inci kalıntı
  • RSE: modelin artık standart hatası
  • h ii : i’inci gözlemin yükselişi

Pratikte, mutlak değeri 3’ten büyük olan herhangi bir standartlaştırılmış artık değeri genellikle aykırı değer olarak kabul ederiz.

Bu eğitimde Python’da standartlaştırılmış artıkların nasıl hesaplanacağına dair adım adım bir örnek sunulmaktadır.

1. Adım: Verileri girin

Öncelikle Python’da çalışacağımız küçük bir veri kümesi oluşturacağız:

 import pandas as pd

#create dataset
df = pd. DataFrame ({' x ': [8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30],
                   ' y ': [41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57]})

Adım 2: Regresyon modelini yerleştirin

Daha sonra basit bir doğrusal regresyon modeli uygulayacağız:

 import statsmodels. api as sm

#define response variable
y = df[' y ']

#define explanatory variable
x = df[' x ']

#add constant to predictor variables
x = sm. add_constant (x)

#fit linear regression model
model = sm. OLS (y,x). fit ()

Adım 3: Standartlaştırılmış artıkları hesaplayın

Daha sonra modelin standartlaştırılmış artıklarını hesaplayacağız:

 #create instance of influence
influence = model. get_influence ()

#obtain standardized residuals
standardized_residuals = influence. reside_studentized_internal

#display standardized residuals
print (standardized_residuals)

[ 1.40517322 0.81017562 0.07491009 -0.59323342 -1.2482053 -0.64248883
  0.59610905 -0.05876884 -2.11711982 -0.066556 0.91057211 1.26973888]

Sonuçlardan, standartlaştırılmış artıkların hiçbirinin mutlak 3 değerini aşmadığını görebiliriz. Dolayısıyla gözlemlerin hiçbiri aykırı görünmüyor.

Adım 4: Standartlaştırılmış artıkları görselleştirin

Son olarak, tahmin değişkeninin değerlerini standartlaştırılmış artıklara göre görselleştirmek için bir dağılım grafiği oluşturabiliriz:

 import matplotlib. pyplot as plt

plt. scatter (df.x, standardized_residuals)
plt. xlabel (' x ')
plt. ylabel (' Standardized Residuals ')
plt. axhline (y=0, color=' black ', linestyle=' -- ', linewidth=1)
plt. show ()

Ek kaynaklar

Kalıntılar nelerdir?
Standartlaştırılmış artıklar nelerdir?
R’de standartlaştırılmış artıklar nasıl hesaplanır
Excel’de standartlaştırılmış artıklar nasıl hesaplanır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir