Sıfır ve artık sapma nasıl yorumlanır (örneklerle)
Genel bir doğrusal modele uyduğunuzda (lojistik regresyon, Poisson regresyonu vb. gibi), çoğu istatistiksel yazılım, modelin sıfır sapması ve artık sapması için değerler üretir.
Sıfır sapma bize yanıt değişkeninin yalnızca orijinal terim içeren bir model tarafından ne kadar iyi tahmin edilebileceğini anlatır.
Artık sapma bize yanıt değişkeninin p öngörücü değişkenli bir model tarafından ne kadar iyi tahmin edilebileceğini anlatır. Değer ne kadar düşük olursa, model yanıt değişkeninin değerini o kadar iyi tahmin edebilir.
Bir modelin “faydalı” olup olmadığını belirlemek için Ki-kare istatistiğini şu şekilde hesaplayabiliriz:
X 2 = Sıfır sapma – Artık sapma
p serbestlik derecesine sahip.
Daha sonra bu Ki-kare istatistiğiyle ilişkili p değerini bulabiliriz. P değeri ne kadar düşük olursa, model yalnızca orijinal terim içeren bir modele kıyasla veri kümesine o kadar iyi uyum sağlayabilir.
Aşağıdaki örnek, R’deki bir lojistik regresyon modeli için sıfır ve artık sapmanın nasıl yorumlanacağını gösterir.
Örnek: Sıfır ve artık sapmanın yorumlanması
Bu örnek için ISLR paketindeki varsayılan veri kümesini kullanacağız. Veri kümesinin özetini yüklemek ve görüntülemek için aşağıdaki kodu kullanabiliriz:
#load dataset data <- ISLR::Default #view summary of dataset summary(data) default student balance income No:9667 No:7056 Min. : 0.0 Min. : 772 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340 Median: 823.6 Median: 34553 Mean: 835.4 Mean: 33517 3rd Qu.:1166.3 3rd Qu.:43808 Max. :2654.3 Max. :73554
Bu veri seti 10.000 kişiye ilişkin aşağıdaki bilgileri içermektedir:
- Varsayılan: Bir kişinin temerrüde düşüp düşmediğini gösterir.
- Öğrenci: Bireyin öğrenci olup olmadığını belirtir.
- bakiye: Bir bireyin taşıdığı ortalama bakiye.
- gelir: Bireyin geliri.
Belirli bir bireyin temerrüde düşme olasılığını tahmin eden bir lojistik regresyon modeli oluşturmak için öğrenci durumunu, banka bakiyesini ve geliri kullanacağız:
#fit logistic regression model model <- glm(default~balance+student+income, family=" binomial ", data=data) #view model summary summary(model) Call: glm(formula = default ~ balance + student + income, family = "binomial", data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.4691 -0.1418 -0.0557 -0.0203 3.7383 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 *** balance 5.737e-03 2.319e-04 24.738 < 2e-16 *** studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** income 3.033e-06 8.203e-06 0.370 0.71152 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2920.6 on 9999 degrees of freedom Residual deviance: 1571.5 on 9996 degrees of freedom AIC: 1579.5 Number of Fisher Scoring iterations: 8
Sıfır ve artık sapma için çıktıda aşağıdaki değerleri gözlemleyebiliriz:
- Sıfır sapma : 2920,6, df = 9999 ile
- Artık sapma : 1571,5 df = 9996 ile
Modelin X 2 istatistiğini hesaplamak için bu değerleri kullanabiliriz:
- X 2 = Sıfır sapma – Artık sapma
- X2 = 2910,6 – 1579,0
- X2 = 1331,6
Tahmin edici değişkenlerin p = 3 serbestlik derecesi vardır.
3 serbestlik derecesine sahip 1331,6’lık bir X2 değerinin 0,000000 p değerine sahip olduğunu bulmak için Ki-kare-P-değeri hesaplayıcısını kullanabiliriz.
Bu p değeri 0,05’ten çok daha düşük olduğundan, modelin belirli bir bireyin temerrüde düşme olasılığını tahmin etmede çok faydalı olduğu sonucuna varabiliriz.
Ek kaynaklar
Aşağıdaki eğitimler, R ve Python’da pratikte lojistik regresyonun nasıl gerçekleştirileceğini açıklamaktadır:
R’de lojistik regresyon nasıl gerçekleştirilir
Python’da Lojistik Regresyon Nasıl Gerçekleştirilir