C: lojistik regresyon modelinde olasılık oranları nasıl hesaplanır?
Lojistik regresyon, yanıt değişkeni ikili olduğunda bir regresyon modeline uymak için kullanabileceğimiz bir yöntemdir.
R’ye bir lojistik regresyon modeli yerleştirdiğinizde, model özetindeki katsayılar, her öngörücü değişkendeki bir birimlik artışla ilişkili yanıt değişkeninin log oranlarındaki ortalama değişimi temsil eder.
Ancak bunun yerine sıklıkla modeldeki yordayıcı değişkenlerin olasılık oranını hesaplamak isteriz.
Modeldeki her tahmin değişkenine ilişkin olasılık oranlarını hızlı bir şekilde hesaplamak için aşağıdaki sözdizimini kullanabilirsiniz:
exp(coef(model))
Aşağıdaki sözdizimini kullanarak her olasılık oranı için %95 güven aralığını da hesaplayabilirsiniz:
exp(cbind(Odds_Ratio = coef(model), confint(model)))
Aşağıdaki örnek, R’deki bir lojistik regresyon modeli için olasılık oranlarını hesaplamak ve yorumlamak amacıyla bu sözdiziminin nasıl kullanılacağını gösterir.
Örnek: R’de Lojistik Regresyon Modelinde Olasılık Oranlarının Hesaplanması
Bu örnek için R’deki ISLR paketindeki varsayılan veri kümesini kullanacağız.
Veri kümesinin özetini yüklemek ve görüntülemek için aşağıdaki kodu kullanabiliriz:
library (ISLR) #view first five rows of Default dataset head(Default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559
Bu veri seti 10.000 kişiye ilişkin aşağıdaki bilgileri içermektedir:
- Varsayılan: Bir kişinin temerrüde düşüp düşmediğini gösterir.
- Öğrenci: Bireyin öğrenci olup olmadığını belirtir.
- bakiye: Bir bireyin taşıdığı ortalama bakiye.
- gelir: Bireyin geliri.
Belirli bir bireyin temerrüde düşme olasılığını tahmin eden bir lojistik regresyon modeli oluşturmak için öğrenci durumunu, banka bakiyesini ve geliri kullanacağız.
R’nin veri kümesine bir lojistik regresyon modeli uydurması için glm işlevini kullanabilir ve family=’binomial’ belirtebiliriz:
#fit logistic regression model model <- glm(default~student+balance+income, family=' binomial ', data=Default) #disable scientific notation for model summary options(scipen=999) #view model summary summary(model) Call: glm(formula = default ~ student + balance + income, family = "binomial", data = train) Deviance Residuals: Min 1Q Median 3Q Max -2.5586 -0.1353 -0.0519 -0.0177 3.7973 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -11.478101194 0.623409555 -18.412 <0.0000000000000002 *** studentYes -0.493292438 0.285735949 -1.726 0.0843 . balance 0.005988059 0.000293765 20.384 <0.0000000000000002 *** income 0.000007857 0.000009965 0.788 0.4304 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2021.1 on 6963 degrees of freedom Residual deviance: 1065.4 on 6960 degrees of freedom AIC: 1073.4 Number of Fisher Scoring iterations: 8
Sonuçtaki katsayılar, log temerrüt olasılıklarındaki ortalama değişimi göstermektedir.
Örneğin, bakiyedeki bir birimlik artış, log temerrüt olasılığında ortalama 0,005988’lik bir artışla ilişkilidir.
Bunun yerine her tahmin değişkeninin olasılık oranını hesaplamak için aşağıdaki sözdizimini kullanabiliriz:
#calculate odds ratio for each predictor variable
exp(coef(model))
(Intercept) studentYes balance income
0.00001903854 0.52373166965 1.00575299051 1.00000303345
Ayrıca her bir oran oranını ve her bir oran oranı için %95 güven aralığını da hesaplayabiliriz:
#calculate odds ratio and 95% confidence interval for each predictor variable
exp(cbind(Odds_Ratio = coef(model), confint(model)))
Odds_Ratio 2.5% 97.5%
(Intercept) 0.00001903854 0.000007074481 0.0000487808
studentYes 0.52373166965 0.329882707270 0.8334223982
balance 1.00575299051 1.005308940686 1.0062238757
income 1.00000303345 0.999986952969 1.0000191246
Her bir katsayı için olasılık oranı, diğer tüm öngörücü değişkenlerin sabit kaldığı varsayılarak, bir bireyin temerrüt olasılıklarındaki ortalama artışı temsil eder.
Örneğin, yordayıcı değişkenin bakiyesinin olasılık oranı 1,0057’dir .
Bu, öğrenci statüsünün ve gelirinin sabit kaldığı varsayıldığında , bireyin bakiyesinde taşıdığı her ek dolar için, bireyin kredisini ödeyememe ihtimalinin 1,0057 kat arttığı anlamına gelir.
Diğer yordayıcı değişkenlerin odds oranlarını da aynı şekilde yorumlayabiliriz.
Ek kaynaklar
Aşağıdaki eğitimlerde R’de diğer ortak görevlerin nasıl gerçekleştirileceği açıklanmaktadır:
Predict () R’de lojistik regresyon modeliyle nasıl kullanılır?
R’de lojistik regresyon çıktısında Pr(>|z|) nasıl yorumlanır?
R’de lojistik regresyon eğrisi nasıl çizilir