Sıfır ve artık sapma nasıl yorumlanır (örneklerle)


Genel bir doğrusal modele uyduğunuzda (lojistik regresyon, Poisson regresyonu vb. gibi), çoğu istatistiksel yazılım, modelin sıfır sapması ve artık sapması için değerler üretir.

Sıfır sapma bize yanıt değişkeninin yalnızca orijinal terim içeren bir model tarafından ne kadar iyi tahmin edilebileceğini anlatır.

Artık sapma bize yanıt değişkeninin p öngörücü değişkenli bir model tarafından ne kadar iyi tahmin edilebileceğini anlatır. Değer ne kadar düşük olursa, model yanıt değişkeninin değerini o kadar iyi tahmin edebilir.

Bir modelin “faydalı” olup olmadığını belirlemek için Ki-kare istatistiğini şu şekilde hesaplayabiliriz:

X 2 = Sıfır sapma – Artık sapma

p serbestlik derecesine sahip.

Daha sonra bu Ki-kare istatistiğiyle ilişkili p değerini bulabiliriz. P değeri ne kadar düşük olursa, model yalnızca orijinal terim içeren bir modele kıyasla veri kümesine o kadar iyi uyum sağlayabilir.

Aşağıdaki örnek, R’deki bir lojistik regresyon modeli için sıfır ve artık sapmanın nasıl yorumlanacağını gösterir.

Örnek: Sıfır ve artık sapmanın yorumlanması

Bu örnek için ISLR paketindeki varsayılan veri kümesini kullanacağız. Veri kümesinin özetini yüklemek ve görüntülemek için aşağıdaki kodu kullanabiliriz:

 #load dataset
data <- ISLR::Default

#view summary of dataset
summary(data)

 default student balance income     
 No:9667 No:7056 Min. : 0.0 Min. : 772  
 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340  
                       Median: 823.6 Median: 34553  
                       Mean: 835.4 Mean: 33517  
                       3rd Qu.:1166.3 3rd Qu.:43808  
                       Max. :2654.3 Max. :73554 

Bu veri seti 10.000 kişiye ilişkin aşağıdaki bilgileri içermektedir:

  • Varsayılan: Bir kişinin temerrüde düşüp düşmediğini gösterir.
  • Öğrenci: Bireyin öğrenci olup olmadığını belirtir.
  • bakiye: Bir bireyin taşıdığı ortalama bakiye.
  • gelir: Bireyin geliri.

Belirli bir bireyin temerrüde düşme olasılığını tahmin eden bir lojistik regresyon modeli oluşturmak için öğrenci durumunu, banka bakiyesini ve geliri kullanacağız:

 #fit logistic regression model
model <- glm(default~balance+student+income, family=" binomial ", data=data)

#view model summary
summary(model)

Call:
glm(formula = default ~ balance + student + income, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-2.4691 -0.1418 -0.0557 -0.0203 3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** 
income 3.033e-06 8.203e-06 0.370 0.71152    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6 on 9999 degrees of freedom
Residual deviance: 1571.5 on 9996 degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8

Sıfır ve artık sapma için çıktıda aşağıdaki değerleri gözlemleyebiliriz:

  • Sıfır sapma : 2920,6, df = 9999 ile
  • Artık sapma : 1571,5 df = 9996 ile

Modelin X 2 istatistiğini hesaplamak için bu değerleri kullanabiliriz:

  • X 2 = Sıfır sapma – Artık sapma
  • X2 = 2910,6 – 1579,0
  • X2 = 1331,6

Tahmin edici değişkenlerin p = 3 serbestlik derecesi vardır.

3 serbestlik derecesine sahip 1331,6’lık bir X2 değerinin 0,000000 p değerine sahip olduğunu bulmak için Ki-kare-P-değeri hesaplayıcısını kullanabiliriz.

Bu p değeri 0,05’ten çok daha düşük olduğundan, modelin belirli bir bireyin temerrüde düşme olasılığını tahmin etmede çok faydalı olduğu sonucuna varabiliriz.

Ek kaynaklar

Aşağıdaki eğitimler, R ve Python’da pratikte lojistik regresyonun nasıl gerçekleştirileceğini açıklamaktadır:

R’de lojistik regresyon nasıl gerçekleştirilir
Python’da Lojistik Regresyon Nasıl Gerçekleştirilir

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir