Tingkat kesalahan klasifikasi dalam pembelajaran mesin: definisi & contoh


Dalam pembelajaran mesin, tingkat kesalahan klasifikasi adalah metrik yang memberi tahu kita persentase pengamatan yang diprediksi secara salah oleh model klasifikasi .

Ini dihitung sebagai berikut:

Tingkat kesalahan klasifikasi = # prediksi salah / # total prediksi

Nilai tingkat kesalahan klasifikasi dapat bervariasi dari 0 hingga 1 dimana:

  • 0 mewakili model yang tidak memiliki prediksi yang salah.
  • 1 mewakili model yang prediksinya sepenuhnya salah.

Semakin rendah nilai tingkat kesalahan klasifikasi maka semakin baik suatu model klasifikasi mampu memprediksi hasil variabel respon .

Contoh berikut menunjukkan cara menghitung tingkat kesalahan klasifikasi untuk model regresi logistik dalam praktiknya.

Contoh: Menghitung tingkat kesalahan klasifikasi untuk model regresi logistik

Misalkan kita menggunakan model regresi logistik untuk memprediksi apakah 400 pemain bola basket perguruan tinggi yang berbeda akan direkrut ke NBA atau tidak.

Matriks konfusi berikut merangkum prediksi yang dibuat oleh model:

menghitung tingkat kesalahan klasifikasi model regresi logistik

Berikut cara menghitung tingkat kesalahan klasifikasi untuk model:

  • Tingkat kesalahan klasifikasi = # prediksi salah / # total prediksi
  • Tingkat kesalahan klasifikasi = (positif palsu + negatif palsu) / (total prediksi)
  • Tingkat kesalahan klasifikasi = (70 + 40) / (400)
  • Tingkat kesalahan klasifikasi = 0,275

Tingkat kesalahan klasifikasi model ini adalah 0,275 atau 27,5% .

Artinya, model tersebut salah memprediksi hasil untuk 27,5% pemain.

Kebalikan dari tingkat kesalahan klasifikasi adalah akurasi, yang dihitung sebagai berikut:

  • Akurasi = 1 – Tingkat kesalahan klasifikasi
  • Akurasi = 1 – 0,275
  • Akurasi = 0,725

Artinya, model tersebut memprediksi dengan tepat hasil untuk 72,5% pemain.

Keuntungan dan Kerugian Tingkat Kesalahan Klasifikasi

Tingkat kesalahan klasifikasi memberikan manfaat sebagai berikut:

  • Sangat mudah untuk menafsirkannya . Tingkat kesalahan klasifikasi sebesar 10% berarti model membuat prediksi yang salah untuk 10% dari total observasi.
  • Sangat mudah untuk menghitungnya . Tingkat kesalahan klasifikasi dihitung sebagai jumlah total prediksi yang salah dibagi dengan jumlah total prediksi.

Namun, tingkat kesalahan klasifikasi memiliki kelemahan sebagai berikut:

  • Ini tidak memperhitungkan cara data didistribusikan . Misalnya, asumsikan bahwa 90% dari seluruh pemain tidak direkrut ke dalam NBA. Jika kita memiliki model yang hanya memperkirakan bahwa setiap pemain tidak akan direkrut, model tersebut akan memiliki tingkat kesalahan klasifikasi hanya 10%. Tampaknya rendah, namun model tersebut sebenarnya tidak mampu memprediksi dengan tepat pemain yang akan direkrut.

Dalam praktiknya, kami sering menghitung tingkat kesalahan klasifikasi model dengan metrik lain seperti:

  • Sensitivitas : “tingkat positif sebenarnya” – persentase hasil positif yang dapat dideteksi oleh model.
  • Kekhususan : “Tingkat negatif sebenarnya” – persentase hasil negatif yang dapat dideteksi oleh model.
  • Skor F1 : Metrik yang memberi tahu kita seberapa akurat suatu model, relatif terhadap cara data didistribusikan.

Dengan menghitung nilai masing-masing metrik ini, kita dapat memahami sepenuhnya seberapa baik model mampu membuat prediksi.

Sumber daya tambahan

Tutorial berikut memberikan informasi tambahan tentang konsep pembelajaran mesin umum:

Pengantar Regresi Logistik
Apa yang dimaksud dengan akurasi seimbang?
Skor F1 vs Akurasi: Mana yang Harus Anda Gunakan?

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *