Regresi atau klasifikasi: apa bedanya?


Algoritma pembelajaran mesin dapat dibagi menjadi dua jenis: algoritma pembelajaran yang diawasi dan tanpa pengawasan .

Algoritma pembelajaran mesin regresi atau klasifikasi

Algoritma pembelajaran yang diawasi dapat diklasifikasikan menjadi dua jenis:

1. Regresi : Variabel respon bersifat kontinu.

Misalnya, variabel respon dapat berupa:

  • Berat
  • Tinggi
  • Harga
  • Waktu
  • Jumlah unit

Dalam setiap kasus, model regresi berupaya memprediksi kuantitas yang berkelanjutan.

Contoh regresi:

Katakanlah kita memiliki kumpulan data yang berisi tiga variabel untuk 100 rumah berbeda: luas persegi, jumlah kamar mandi, dan harga jual.

Kita dapat menggunakan model regresi yang menggunakan luas persegi dan jumlah kamar mandi sebagai variabel penjelas dan harga jual sebagai variabel respon.

Kami kemudian dapat menggunakan model ini untuk memprediksi harga jual sebuah rumah, berdasarkan luas persegi dan jumlah kamar mandi.

Ini adalah contoh model regresi karena variabel respon (harga jual) bersifat kontinu.

Cara paling umum untuk mengukur keakuratan model regresi adalah dengan menghitung root mean square error (RMSE), metrik yang memberi tahu kita seberapa jauh rata-rata nilai prediksi kita dari nilai pengamatan kita dalam suatu model. Ini dihitung sebagai berikut:

RMSE = √ Σ(P saya – O saya ) 2 / n

Emas:

  • Σ adalah simbol mewah yang berarti “jumlah”
  • P i adalah nilai prediksi pengamatan ke-i
  • O i adalah nilai observasi untuk observasi ke-i
  • n adalah ukuran sampel

Semakin kecil RMSE, semakin baik model regresi mampu menyesuaikan data.

2. Klasifikasi : Variabel respon bersifat kategorikal.

Misalnya, variabel respon dapat mengambil nilai berikut:

  • Laki laki atau perempuan
  • Berhasil atau gagal
  • Rendah, sedang atau tinggi

Dalam setiap kasus, model klasifikasi berupaya memprediksi label kelas.

Contoh klasifikasi:

Katakanlah kita memiliki kumpulan data yang berisi tiga variabel untuk 100 pemain bola basket perguruan tinggi yang berbeda: rata-rata poin per permainan, tingkat divisi, dan apakah mereka direkrut ke NBA atau tidak.

Kita dapat mengadaptasi model klasifikasi yang menggunakan poin rata-rata per pertandingan dan level per divisi sebagai variabel penjelas dan “dirancang” sebagai variabel respons.

Kami kemudian dapat menggunakan model ini untuk memprediksi apakah pemain tertentu akan direkrut ke NBA berdasarkan rata-rata poin per game dan tingkat divisi.

Ini adalah contoh model klasifikasi karena variabel respon (“tertulis”) bersifat kategorikal. Dengan kata lain, ia hanya dapat mengambil nilai dalam dua kategori berbeda: “Tertulis” atau “Tidak Direncanakan”.

Cara paling umum untuk mengukur keakuratan model klasifikasi adalah dengan menghitung persentase klasifikasi yang benar yang dibuat oleh model:

Akurasi = klasifikasi koreksi / jumlah total upaya klasifikasi * 100%

Misalnya, jika suatu model dengan benar mengidentifikasi apakah seorang pemain akan direkrut ke NBA sebanyak 88 kali dari kemungkinan 100 kali, maka keakuratan model tersebut adalah:

Akurasi = (88/100) * 100% = 88%

Semakin tinggi akurasinya, semakin baik model klasifikasi dalam memprediksi hasil.

Persamaan Antara Regresi dan Klasifikasi

Algoritme regresi dan klasifikasi serupa dalam hal berikut:

  • Keduanya merupakan algoritma pembelajaran terbimbing, artinya keduanya melibatkan variabel respon.
  • Keduanya menggunakan satu atau lebih variabel penjelas untuk membuat model guna memprediksi respons.
  • Keduanya dapat digunakan untuk memahami bagaimana perubahan nilai variabel penjelas mempengaruhi nilai suatu variabel respon.

Perbedaan antara regresi dan klasifikasi

Algoritma regresi dan klasifikasi berbeda dalam hal berikut:

  • Algoritme regresi berupaya memprediksi kuantitas berkelanjutan dan algoritma klasifikasi berupaya memprediksi label kelas.
  • Cara kami mengukur keakuratan model regresi dan klasifikasi berbeda-beda.

Mengubah regresi menjadi klasifikasi

Perlu dicatat bahwa masalah regresi dapat diubah menjadi masalah klasifikasi hanya dengan mendiskritisasi variabel respon ke dalam beberapa kompartemen.

Misalnya, kita memiliki kumpulan data yang berisi tiga variabel: luas persegi, jumlah kamar mandi, dan harga jual.

Kita dapat membuat model regresi menggunakan luas persegi dan jumlah kamar mandi untuk memprediksi harga jual.

Namun, kami dapat membagi harga jual menjadi tiga kelas berbeda:

  • $80.000 – $160.000: “Harga jual rendah”
  • $161.000 – $240.000: “Harga jual rata-rata”
  • $241,000 – $320,000: “Harga jual tinggi”

Kita kemudian dapat menggunakan luas persegi dan jumlah kamar mandi sebagai variabel penjelas untuk memprediksi kelas mana (rendah, sedang, atau tinggi) yang akan termasuk dalam harga jual rumah tertentu.

Ini akan menjadi contoh model klasifikasi karena kita mencoba menempatkan setiap rumah ke dalam satu kelas.

Ringkasan

Tabel berikut merangkum persamaan dan perbedaan antara algoritma regresi dan klasifikasi:

Perbedaan antara regresi dan klasifikasi

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *