Cara membuat dan menafsirkan kurva roc di stata
Regresi logistik adalah metode statistik yang kami gunakan untuk menyesuaikan model regresi jika variabel responsnya biner. Untuk mengevaluasi seberapa cocok model regresi logistik dengan kumpulan data, kita dapat melihat dua metrik berikut:
- Sensitivitas: probabilitas model memprediksi hasil positif untuk suatu observasi padahal hasilnya benar-benar positif.
- Kekhususan: probabilitas model memprediksi hasil negatif untuk suatu observasi padahal hasilnya sebenarnya negatif.
Cara sederhana untuk memvisualisasikan kedua metrik ini adalah dengan membuat kurva ROC , yaitu grafik yang menampilkan sensitivitas dan spesifisitas model regresi logistik.
Tutorial ini menjelaskan cara membuat dan menafsirkan kurva ROC di Stata.
Contoh: Kurva ROC di Stata
Untuk contoh ini, kita akan menggunakan kumpulan data bernama lbw , yang berisi variabel berikut untuk 189 ibu:
- rendah – apakah bayi memiliki berat badan lahir rendah atau tidak. 1 = ya, 0 = tidak.
- usia – usia ibu.
- merokok – apakah ibu merokok selama kehamilan atau tidak. 1 = ya, 0 = tidak.
Kami akan menyesuaikan model regresi logistik dengan data yang menggunakan usia dan kebiasaan merokok sebagai variabel penjelas dan berat badan lahir rendah sebagai variabel respon. Selanjutnya, kita akan membuat kurva ROC untuk menganalisis seberapa cocok model tersebut dengan data.
Langkah 1: Muat dan tampilkan data.
Muat data menggunakan perintah berikut:
gunakan https://www.stata-press.com/data/r13/lbw
Dapatkan pemahaman cepat tentang kumpulan data menggunakan perintah berikut:
untuk meringkas
Ada 11 variabel berbeda dalam kumpulan data, namun hanya tiga yang kami minati adalah tingkat rendah, usia, dan kebiasaan merokok.
Langkah 2: Sesuaikan model regresi logistik.
Gunakan perintah berikut agar sesuai dengan model regresi logistik:
logit asap usia rendah
Langkah 3: Buat kurva ROC.
Kita dapat membuat kurva ROC untuk model menggunakan perintah berikut:
lroc
Langkah 4: Interpretasikan kurva ROC.
Jika kita menyesuaikan model regresi logistik, model ini dapat digunakan untuk menghitung probabilitas bahwa observasi tertentu akan memberikan hasil positif, berdasarkan nilai variabel prediktor.
Untuk menentukan apakah suatu observasi harus diklasifikasikan sebagai positif, kita dapat memilih ambang batas sehingga observasi dengan probabilitas yang disesuaikan di atas ambang batas diklasifikasikan sebagai positif dan semua observasi dengan probabilitas yang disesuaikan di bawah ambang batas diklasifikasikan sebagai negatif. .
Misalnya kita memilih ambang batas 0,5. Artinya, setiap observasi dengan probabilitas penyesuaian lebih besar dari 0,5 akan memperoleh hasil positif, sedangkan observasi apa pun dengan probabilitas penyesuaian kurang dari atau sama dengan 0,5 akan memperoleh hasil negatif.
Kurva ROC menunjukkan kepada kita nilai sensitivitas versus spesifisitas 1 karena nilai ambang batas berubah dari 0 menjadi 1. Model dengan sensitivitas dan spesifisitas tinggi akan memiliki kurva ROC yang berada di sudut kiri atas plot. Model dengan sensitivitas dan spesifisitas rendah akan memiliki kurva mendekati diagonal 45 derajat.
AUC (area under curve) memberi kita gambaran tentang kemampuan model dalam membedakan hasil positif dan negatif. AUC dapat berkisar dari 0 hingga 1. Semakin tinggi AUC, semakin baik model dalam mengklasifikasikan hasil dengan benar. Dalam contoh kita, kita dapat melihat bahwa AUC-nya adalah 0,6111 .
Kita dapat menggunakan AUC untuk membandingkan performa dua model atau lebih. Model dengan AUC tertinggi memiliki performa terbaik.
Sumber daya tambahan
Cara melakukan regresi logistik di Stata
Bagaimana menafsirkan kurva ROC dan AUC model regresi logistik