A: cara menghitung rasio odds dalam model regresi logistik


Regresi logistik adalah metode yang dapat kita gunakan untuk menyesuaikan model regresi ketika variabel responnya adalah biner.

Saat Anda memasukkan model regresi logistik ke dalam R, koefisien dalam ringkasan model mewakili perubahan rata-rata dalam log odds dari variabel respons yang terkait dengan peningkatan satu unit di setiap variabel prediktor.

Namun, sering kali kita ingin menghitung rasio odds untuk variabel prediktor dalam model.

Untuk menghitung rasio odds dengan cepat untuk setiap variabel prediktor dalam model, Anda dapat menggunakan sintaks berikut:

 exp(coef(model))

Anda juga dapat menghitung interval kepercayaan 95% untuk setiap rasio odds menggunakan sintaks berikut:

 exp(cbind(Odds_Ratio = coef(model), confint(model)))

Contoh berikut menunjukkan cara menggunakan sintaks ini untuk menghitung dan menafsirkan rasio odds untuk model regresi logistik di R.

Contoh: Menghitung Rasio Odds dalam Model Regresi Logistik di R

Untuk contoh ini, kita akan menggunakan dataset default dari paket ISLR di R.

Kita dapat menggunakan kode berikut untuk memuat dan menampilkan ringkasan kumpulan data:

 library (ISLR)

#view first five rows of Default dataset
head(Default)

  default student balance income
1 No No 729.5265 44361.625
2 No Yes 817.1804 12106.135
3 No No 1073.5492 31767.139
4 No No 529.2506 35704.494
5 No No 785.6559 38463.496
6 No Yes 919.5885 7491.559

Kumpulan data ini berisi informasi berikut tentang 10.000 individu:

  • default: menunjukkan apakah seseorang mengalami default atau tidak.
  • pelajar: menunjukkan apakah seseorang adalah pelajar atau bukan.
  • saldo: Saldo rata-rata yang dibawa oleh seorang individu.
  • pendapatan: Pendapatan individu.

Kami akan menggunakan status pelajar, saldo bank, dan pendapatan untuk membangun model regresi logistik yang memprediksi kemungkinan seseorang mengalami gagal bayar.

Kita dapat menggunakan fungsi glm dan menentukan family=’binomial’ sehingga R cocok dengan model regresi logistik ke kumpulan data:

 #fit logistic regression model
model <- glm(default~student+balance+income, family=' binomial ', data=Default)

#disable scientific notation for model summary
options(scipen=999)

#view model summary
summary(model)

Call:
glm(formula = default ~ student + balance + income, family = "binomial", 
    data = train)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-2.5586 -0.1353 -0.0519 -0.0177 3.7973  

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept) -11.478101194 0.623409555 -18.412 <0.0000000000000002 ***
studentYes -0.493292438 0.285735949 -1.726 0.0843 .  
balance 0.005988059 0.000293765 20.384 <0.0000000000000002 ***
income 0.000007857 0.000009965 0.788 0.4304    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2021.1 on 6963 degrees of freedom
Residual deviance: 1065.4 on 6960 degrees of freedom
AIC: 1073.4

Number of Fisher Scoring iterations: 8

Koefisien dalam hasil menunjukkan perubahan rata-rata dalam log odds of default.

Misalnya, peningkatan saldo sebesar satu unit dikaitkan dengan peningkatan rata-rata sebesar 0,005988 dalam log probabilitas gagal bayar.

Untuk menghitung rasio odds setiap variabel prediktor, kita dapat menggunakan sintaks berikut:

 #calculate odds ratio for each predictor variable
exp(coef(model))

  (Intercept) studentYes balance income 
0.00001903854 0.52373166965 1.00575299051 1.00000303345 

Kami juga dapat menghitung setiap rasio odds serta interval kepercayaan 95% untuk setiap rasio odds:

 #calculate odds ratio and 95% confidence interval for each predictor variable 
exp(cbind(Odds_Ratio = coef(model), confint(model)))

               Odds_Ratio 2.5% 97.5%
(Intercept) 0.00001903854 0.000007074481 0.0000487808
studentYes 0.52373166965 0.329882707270 0.8334223982
balance 1.00575299051 1.005308940686 1.0062238757
income 1.00000303345 0.999986952969 1.0000191246

Rasio odds untuk setiap koefisien mewakili peningkatan rata-rata dalam probabilitas default individu, dengan asumsi semua variabel prediktor lainnya tetap konstan.

Misalnya keseimbangan variabel prediktor memiliki rasio odds sebesar 1,0057 .

Ini berarti bahwa untuk setiap tambahan dolar dalam saldo yang dimiliki seseorang, kemungkinan individu tersebut akan gagal membayar pinjamannya meningkat sebesar 1,0057 kali lipat, dengan asumsi status pelajar dan pendapatan tetap konstan .

Kita dapat menafsirkan rasio odds untuk variabel prediktor lainnya dengan cara yang sama.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:

Cara menggunakan Predict() dengan model regresi logistik di R
Bagaimana menafsirkan Pr(>|z|) dalam keluaran regresi logistik di R
Cara memplot kurva regresi logistik di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *