Apa yang dianggap sebagai skor auc yang baik?


Regresi logistik adalah metode yang kami gunakan untuk menyesuaikan model regresi ketika variabel responsnya adalah biner.

Untuk mengevaluasi seberapa cocok model regresi logistik dengan kumpulan data, kita dapat melihat dua metrik berikut:

  • Sensitivitas: probabilitas model memprediksi hasil positif untuk suatu observasi padahal hasilnya benar-benar positif. Ini juga disebut “tingkat positif sebenarnya”.
  • Kekhususan: probabilitas model memprediksi hasil negatif untuk suatu observasi padahal hasilnya sebenarnya negatif. Ini juga disebut “tingkat negatif sebenarnya”.

Salah satu cara untuk memvisualisasikan kedua pengukuran ini adalah dengan membuat kurva ROC , yang merupakan singkatan dari kurva “karakteristik pengoperasian penerima”.

Ini adalah grafik yang menampilkan sensitivitas sepanjang sumbu y dan (1 – spesifisitas) sepanjang sumbu x.

Salah satu cara untuk mengukur efektivitas model regresi logistik dalam mengklasifikasikan data adalah dengan menghitung AUC , yang merupakan singkatan dari “area di bawah kurva”.

Nilai AUC berkisar antara 0 hingga 1. Model yang memiliki AUC 1 mampu mengklasifikasikan observasi ke dalam kelas dengan sempurna, sedangkan model yang memiliki AUC 0,5 tidak lebih baik daripada model yang membuat tebakan acak.

Berapa skor AUC yang bagus?

Pertanyaan yang sering ditanyakan siswa tentang AUC adalah:

Berapa skor AUC yang bagus?

Jawabannya:

Tidak ada batasan khusus untuk apa yang dianggap sebagai skor AUC yang baik.

Jelasnya, semakin tinggi skor AUC, semakin mampu model tersebut mengklasifikasikan observasi ke dalam kelas-kelas.

Dan kita tahu bahwa model dengan skor AUC 0,5 tidak lebih baik dari model yang membuat tebakan acak.

Namun, tidak ada angka ajaib untuk menentukan apakah skor AUC baik atau buruk.

Jika kita perlu mengklasifikasikan skor tertentu ke dalam kategori baik atau buruk, kita dapat merujuk pada aturan praktis berikut dari Hosmer dan Lemeshow dalam Regresi Logistik Terapan (p. 177):

  • 0,5 = Tidak ada diskriminasi
  • 0,5-0,7 = Diskriminasi buruk
  • 0,7-0,8 = Diskriminasi yang dapat diterima
  • 0,8-0,9 = Diskriminasi yang sangat baik
  • >0,9 = Diskriminasi yang luar biasa

Berdasarkan standar ini, model dengan skor AUC di bawah 0,7 akan dianggap buruk dan model mana pun yang lebih tinggi akan dianggap dapat diterima atau lebih baik.

Skor AUC yang “baik” bervariasi menurut industri

Penting untuk diingat bahwa skor AUC yang dianggap “baik” berbeda-beda menurut industri.

Misalnya, di bidang medis, peneliti sering mencari skor AUC di atas 0,95 karena kerugian yang ditimbulkan jika melakukan kesalahan sangat tinggi.

Misalnya, jika kita memiliki model regresi logistik yang memprediksi apakah seorang pasien akan mengidap kanker atau tidak, biaya yang harus dikeluarkan untuk membuat kesalahan (dengan memberikan informasi yang salah kepada pasien bahwa mereka tidak mengidap kanker maka pasien mengidap kanker) sangat tinggi sehingga kita ingin model yang benar hampir setiap saat.

Sebaliknya, di industri lain seperti pemasaran, skor AUC yang lebih rendah mungkin dapat diterima untuk suatu model.

Misalnya, jika kita memiliki model yang memprediksi apakah seorang pelanggan akan menjadi pelanggan tetap atau tidak, akibat dari kesalahan tidak akan mengubah hidup, sehingga model dengan AUC serendah 0,6 masih bisa berguna.

Bandingkan skor AUC dengan model saat ini

Di dunia nyata, kami sering membandingkan skor AUC model regresi logistik baru dengan skor AUC model yang digunakan saat ini.

Misalnya, sebuah perusahaan menggunakan model regresi logistik untuk memprediksi apakah pelanggan akan menjadi pelanggan tetap atau tidak.

Jika model saat ini memiliki skor AUC 0,6 dan Anda mengembangkan model baru yang memiliki AUC 0,65, maka model baru yang Anda kembangkan akan lebih disukai meskipun hanya menawarkan sedikit peningkatan dan akan dianggap “buruk” oleh Hosmer dan Lemeshow standar.

Sumber daya tambahan

Tutorial berikut memberikan informasi tambahan tentang cara membuat dan menafsirkan kurva ROC dan skor AUC:

Cara Menafsirkan Kurva ROC (dengan Contoh)
Cara Membuat Kurva KOP dengan Python
Cara membuat kurva ROC di R
Cara menghitung AUC di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *