Cara menafsirkan kurva roc (dengan contoh)
Regresi logistik adalah metode statistik yang kami gunakan untuk menyesuaikan model regresi jika variabel responsnya biner. Untuk mengevaluasi seberapa cocok model regresi logistik dengan kumpulan data, kita dapat melihat dua metrik berikut:
- Sensitivitas: probabilitas model memprediksi hasil positif untuk suatu observasi padahal hasilnya benar-benar positif.
- Kekhususan: probabilitas model memprediksi hasil negatif untuk suatu observasi padahal hasilnya sebenarnya negatif.
Cara sederhana untuk memvisualisasikan kedua metrik ini adalah dengan membuat kurva ROC , yaitu grafik yang menampilkan sensitivitas dan spesifisitas model regresi logistik.
Tutorial ini menjelaskan cara membuat dan menafsirkan kurva ROC.
Cara Membuat Kurva ROC
Setelah kita memasang model regresi logistik, kita dapat menggunakan model tersebut untuk mengklasifikasikan observasi ke dalam salah satu dari dua kategori.
Misalnya, kita dapat mengklasifikasikan observasi menjadi “positif” atau “negatif”.
Tingkat positif sebenarnya mewakili proporsi pengamatan yang seharusnya positif padahal sebenarnya positif.
Sebaliknya, tingkat positif palsu mewakili proporsi observasi yang seharusnya positif namun sebenarnya negatif.
Saat kami membuat kurva ROC, kami memplot pasangan tingkat positif sebenarnya versus tingkat positif palsu untuk setiap ambang batas keputusan yang mungkin dari model regresi logistik.
Bagaimana menafsirkan kurva ROC
Semakin dekat kurva ROC ke sudut kiri atas plot, semakin baik model tersebut mampu mengklasifikasikan data ke dalam kategori.
Untuk mengukurnya, kita dapat menghitung AUC (area di bawah kurva) yang menunjukkan seberapa banyak plot yang berada di bawah kurva.
Semakin dekat AUC ke 1, maka semakin baik model tersebut.
Model dengan AUC sama dengan 0,5 akan menjadi garis diagonal sempurna dan mewakili model yang tidak lebih baik dari model yang melakukan klasifikasi acak.
Penghitungan AUC untuk model regresi logistik berganda sangat berguna karena memungkinkan kita melihat model mana yang terbaik dalam membuat prediksi.
Misalnya, kita memasangkan tiga model regresi logistik yang berbeda dan memplot kurva ROC berikut untuk setiap model:
Misalkan kita menghitung AUC untuk setiap model sebagai berikut:
- Model A: AUC = 0,923
- Model B: AUC = 0,794
- Model C: AUC = 0,588
Model A memiliki AUC tertinggi, yang menunjukkan bahwa model tersebut memiliki area di bawah kurva tertinggi dan merupakan model terbaik untuk mengklasifikasikan observasi ke dalam kategori dengan benar.
Sumber daya tambahan
Tutorial berikut menjelaskan cara membuat kurva ROC menggunakan perangkat lunak statistik yang berbeda: