Bagaimana menafsirkan statistik c dari model regresi logistik
Tutorial ini memberikan penjelasan sederhana tentang cara menafsirkan statistik C model regresi logistik.
Apa itu regresi logistik?
Regresi logistik adalah metode statistik yang kami gunakan untuk menyesuaikan model regresi jika variabel responsnya biner. Berikut beberapa contoh penggunaan regresi logistik:
- Kami ingin mengetahui bagaimana olahraga, pola makan, dan berat badan berdampak pada kemungkinan terkena serangan jantung. Variabel responnya adalah serangan jantung dan mempunyai dua kemungkinan hasil: serangan jantung terjadi atau tidak terjadi.
- Kami ingin mengetahui bagaimana IPK, skor ACT, dan jumlah mata kuliah AP yang diambil berdampak pada kemungkinan diterima di universitas tertentu. Variabel responnya adalah penerimaan dan mempunyai dua kemungkinan hasil: diterima atau tidak diterima.
- Kami ingin mengetahui apakah jumlah kata dan judul email memengaruhi kemungkinan email tersebut merupakan spam. Variabel responsnya adalah spam dan memiliki dua kemungkinan hasil: spam atau bukan spam.
Perhatikan bahwa variabel prediktor dapat berupa numerik atau kategorikal; yang penting variabel responnya biner. Jika demikian, regresi logistik merupakan model yang tepat digunakan untuk menjelaskan hubungan antara variabel prediktor dan variabel respon.
Bagaimana menilai kecukupan model regresi logistik
Setelah kita menyesuaikan model regresi logistik ke kumpulan data, kita sering kali tertarik pada seberapa cocok model tersebut dengan data. Secara khusus, kami tertarik pada kemampuan model untuk memprediksi hasil positif dan negatif secara akurat.
Sensitivitas mengacu pada probabilitas bahwa model memprediksi hasil positif untuk suatu observasi padahal hasilnya benar-benar positif.
Kekhususan mengacu pada probabilitas bahwa model memprediksi hasil negatif untuk suatu observasi padahal hasilnya sebenarnya negatif.
Model regresi logistik sempurna untuk mengklasifikasikan observasi jika memiliki sensitivitas dan spesifisitas 100%, namun dalam praktiknya hal ini hampir tidak pernah terjadi.
Setelah kita memasang model regresi logistik, model tersebut dapat digunakan untuk menghitung probabilitas bahwa suatu observasi tertentu akan memberikan hasil positif, berdasarkan nilai variabel prediktor.
Untuk menentukan apakah suatu observasi harus diklasifikasikan sebagai positif, kita dapat memilih ambang batas sehingga observasi dengan probabilitas yang disesuaikan di atas ambang batas diklasifikasikan sebagai positif dan semua observasi dengan probabilitas yang disesuaikan di bawah ambang batas diklasifikasikan sebagai negatif. .
Misalnya kita memilih ambang batas 0,5. Artinya, setiap observasi dengan probabilitas penyesuaian lebih besar dari 0,5 akan memperoleh hasil positif, sedangkan observasi apa pun dengan probabilitas penyesuaian kurang dari atau sama dengan 0,5 akan memperoleh hasil negatif.
Merencanakan kurva ROC
Salah satu cara paling umum untuk memvisualisasikan sensitivitas versus spesifisitas suatu model adalah dengan memplot kurva Receiver Operating Characteristic ( ROC ), yaitu plot nilai sensitivitas versus spesifisitas 1 sebagai nilai ambang batas. intinya berubah dari 0 menjadi 1:
Model dengan sensitivitas dan spesifisitas tinggi akan memiliki kurva ROC yang sesuai dengan sudut kiri atas plot. Model dengan sensitivitas dan spesifisitas rendah akan memiliki kurva mendekati diagonal 45 derajat.
AUC (area under curve) memberi kita gambaran tentang kemampuan model dalam membedakan hasil positif dan negatif. AUC dapat berkisar dari 0 hingga 1. Semakin tinggi AUC, semakin baik model dalam mengklasifikasikan hasil dengan benar.
Artinya, model dengan kurva ROC yang berada di sudut kiri atas plot akan memiliki area yang tinggi di bawah kurva dan oleh karena itu akan menjadi model yang mampu mengklasifikasikan hasil dengan baik. Sebaliknya, model dengan kurva ROC yang memiliki diagonal 45 derajat akan memiliki area bawah kurva yang rendah dan oleh karena itu akan menjadi model yang tidak dapat mengklasifikasikan hasil dengan baik.
Memahami statistik C
Statistik c , juga dikenal sebagai statistik konkordansi , sama dengan AUC (area di bawah kurva) dan memiliki interpretasi sebagai berikut:
- Nilai yang kurang dari 0,5 menunjukkan model yang buruk.
- Nilai 0,5 menunjukkan bahwa model tersebut tidak lebih baik dalam mengklasifikasikan hasil dibandingkan peluang.
- Semakin dekat nilainya dengan 1, semakin mampu model mengklasifikasikan hasil dengan benar.
- Nilai 1 berarti model tersebut sempurna untuk mengklasifikasikan hasil.
Jadi, statistik C memberi kita gambaran tentang seberapa efektif suatu model dalam mengklasifikasikan hasil dengan benar.
Dalam keadaan klinis, statistik C dapat dihitung dengan mengambil semua kemungkinan pasangan individu, yaitu individu yang mengalami hasil positif dan individu yang mengalami hasil negatif. Kemudian statistik c dapat dihitung sebagai proporsi pasangan yang mana individu yang mengalami hasil positif memiliki kemungkinan prediksi yang lebih tinggi untuk mengalami hasil dibandingkan individu yang tidak mengalami hasil positif.
Misalnya, kita menyesuaikan model regresi logistik menggunakan variabel prediktor seperti usia dan tekanan darah untuk memprediksi kemungkinan serangan jantung.
Untuk mencari c-statistik model, kami dapat mengidentifikasi semua kemungkinan pasangan individu, yang terdiri dari individu yang mengalami serangan jantung dan individu yang tidak mengalami serangan jantung. Kemudian statistik c dapat dihitung sebagai proporsi dari pasangan-pasangan tersebut di mana individu yang mengalami serangan jantung sebenarnya mempunyai prediksi probabilitas yang lebih tinggi untuk menderita serangan jantung dibandingkan dengan individu yang tidak menderita serangan jantung. serangan jantung.
Kesimpulan
Dalam artikel ini kita mempelajari hal berikut:
- Regresi logistik adalah metode statistik yang kami gunakan untuk menyesuaikan model regresi jika variabel responsnya biner.
- Untuk menilai kesesuaian model regresi logistik, kita dapat melihat sensitivitas dan spesifisitas , yang menunjukkan seberapa baik model tersebut mampu mengklasifikasikan hasil dengan benar.
- Untuk memvisualisasikan sensitivitas dan spesifisitas, kita dapat membuat kurva ROC .
- AUC (area di bawah kurva) menunjukkan seberapa baik model mampu mengklasifikasikan hasil dengan benar. Jika kurva ROC berada di sudut kiri atas plot, hal ini menunjukkan bahwa model berhasil mengklasifikasikan hasil.
- Statistik c sama dengan AUC (area di bawah kurva) dan juga dapat dihitung dengan mengambil semua kemungkinan pasangan individu, yaitu individu yang mengalami hasil positif dan individu yang mengalami hasil negatif. Kemudian, statistik c adalah proporsi pasangan yang mana individu yang mengalami hasil positif memiliki kemungkinan prediksi yang lebih tinggi untuk mengalami hasil dibandingkan individu yang tidak mengalami hasil positif.
- Semakin dekat statistik C ke 1, semakin tepat suatu model dapat mengklasifikasikan hasil.