Standartlaştırılmış artıklar nelerdir?
Artık, birregresyon modelinde gözlemlenen bir değer ile tahmin edilen bir değer arasındaki farktır.
Aşağıdaki şekilde hesaplanır:
Artık = Gözlemlenen değer – Tahmin edilen değer
Gözlemlenen değerleri çizer ve uygun regresyon çizgisini üst üste koyarsak, her gözlem için artıklar, gözlem ile regresyon çizgisi arasındaki dikey mesafe olacaktır:
Bir regresyon modelinde aykırı değerleri tanımlamak için sıklıkla kullandığımız bir tür artık , standartlaştırılmış artık olarak adlandırılır.
Aşağıdaki şekilde hesaplanır:
r ben = e ben / s(e ben ) = e ben / RSE√ 1-h ii
Altın:
- e i : i’inci kalıntı
- RSE: modelin artık standart hatası
- h ii : i’inci gözlemin yükselişi
Pratikte, mutlak değeri 3’ten büyük olan herhangi bir standartlaştırılmış artık değeri genellikle aykırı değer olarak kabul ederiz.
Bu, mutlaka bu gözlemleri modelden çıkaracağımız anlamına gelmez, ancak en azından bunların bir veri giriş hatasının veya başka bir garip olayın sonucu olmadığını doğrulamak için bunları daha ayrıntılı olarak incelememiz gerekir.
Not: Bazen standartlaştırılmış kalıntılara “kurum içi incelenen kalıntılar” da denir.
Örnek: Standartlaştırılmış artıklar nasıl hesaplanır?
Toplamda 12 gözlem içeren aşağıdaki veri setine sahip olduğumuzu varsayalım:
Bu veri setine doğrusal bir regresyon çizgisi sığdırmak için istatistiksel yazılım ( R , Excel , Python , Stata vb. gibi) kullanırsak, en iyi uyum çizgisinin şu şekilde ortaya çıktığını göreceğiz:
y = 29,63 + 0,7553x
Bu satırı kullanarak X değerine göre her Y değeri için tahmin edilen değeri hesaplayabiliriz. Örneğin ilk gözlemin tahmin edilen değeri şöyle olacaktır:
y = 29,63 + 0,7553*(8) = 35,67
Daha sonra bu gözlemin artığı şu şekilde hesaplayabiliriz:
Artık = Gözlemlenen değer – Tahmin edilen değer = 41 – 35,67 = 5,33
Her gözlem için artık değeri bulmak amacıyla bu işlemi tekrarlayabiliriz:
Modelin artık standart hatasının 4,44 olduğunu bulmak için istatistiksel yazılımı da kullanabiliriz.
Ve, bu dersin kapsamı dışında olmasına rağmen, her gözlem için kaldıraç istatistiğini (h ii ) bulmak için yazılımı kullanabiliriz:
Daha sonra her gözlem için standartlaştırılmış artık değeri hesaplamak amacıyla aşağıdaki formülü kullanabiliriz:
r ben = e ben / RSE√ 1-h ii
Örneğin, ilk gözlem için standartlaştırılmış artık şu şekilde hesaplanır:
r ben = 5,33 / 4,44√ 1-0,27 = 1,404
Her gözlem için standartlaştırılmış artık değeri bulmak amacıyla bu işlemi tekrarlayabiliriz:
Daha sonra, standartlaştırılmış artıklardan herhangi birinin 3’lük mutlak değer eşiğini aşıp aşmadığını görsel olarak görmek için standartlaştırılmış artıklara karşı tahmin değerlerinin hızlı bir dağılım grafiğini oluşturabiliriz:
Grafikten, standartlaştırılmış artıkların hiçbirinin mutlak 3 değerini aşmadığını görebiliriz. Dolayısıyla gözlemlerin hiçbiri aykırı değer olarak görünmemektedir.
Bazı durumlarda araştırmacıların, standartlaştırılmış artıkları mutlak 2 değerini aşan gözlemleri aykırı değer olarak değerlendirdikleri belirtilmelidir.
Çalıştığınız alana ve üzerinde çalıştığınız spesifik soruna bağlı olarak, aykırı değerler için eşiğiniz olarak 2 veya 3 gibi mutlak bir değer kullanmak isteyip istemediğiniz size bağlıdır.
Ek kaynaklar
Aşağıdaki eğitimler standartlaştırılmış artıklar hakkında ek bilgi sağlar:
İstatistiklerde artıklar nelerdir?
Excel’de standartlaştırılmış artıklar nasıl hesaplanır
R’de standartlaştırılmış artıklar nasıl hesaplanır
Python’da Standartlaştırılmış Artıklar Nasıl Hesaplanır