Pengenalan sederhana untuk meningkatkan pembelajaran mesin


Sebagian besar algoritme pembelajaran mesin yang diawasi didasarkan pada penggunaan model prediktif tunggal seperti regresi linier , regresi logistik , regresi ridge , dll.

Namun, metode seperti bagging dan random forest membangun banyak model berbeda berdasarkan sampel bootstrap berulang dari kumpulan data asli. Prediksi terhadap data baru dibuat dengan mengambil rata-rata prediksi yang dibuat oleh masing-masing model.

Metode-metode ini cenderung menawarkan peningkatan akurasi prediksi dibandingkan metode yang hanya menggunakan satu model prediksi karena menggunakan proses berikut:

  • Pertama, bangun model individual dengan varian tinggi dan bias rendah (misalnya, pohon keputusan yang dikembangkan secara mendalam).
  • Kemudian, buat rata-rata prediksi yang dibuat oleh masing-masing model untuk mengurangi varians.

Metode lain yang cenderung menawarkan peningkatan akurasi prediksi yang lebih besar dikenal sebagai boosting .

Apa itu Peningkatan?

Peningkatan adalah metode yang dapat digunakan dengan semua jenis model, namun paling sering digunakan dengan pohon keputusan.

Ide di balik peningkatan ini sederhana:

1. Pertama, bangun model yang lemah.

  • Model yang “lemah” adalah model yang tingkat kesalahannya hanya sedikit lebih baik daripada perkiraan acak.
  • Dalam prakteknya, ini biasanya merupakan pohon keputusan dengan hanya satu atau dua divisi.

2. Selanjutnya, buat model lemah lainnya berdasarkan sisa model sebelumnya.

  • Dalam praktiknya, kami menggunakan sisa dari model sebelumnya (yaitu kesalahan dalam prediksi kami) untuk menyesuaikan model baru yang sedikit meningkatkan tingkat kesalahan secara keseluruhan.

3. Lanjutkan proses ini hingga validasi silang k-fold meminta kita berhenti.

  • Dalam praktiknya, kami menggunakan validasi silang k-fold untuk mengidentifikasi kapan kami harus berhenti mengembangkan model yang ditingkatkan.

Dengan menggunakan metode ini, kita dapat memulai dengan model yang lemah dan terus “meningkatkan” kinerjanya dengan membangun pohon baru secara berurutan yang meningkatkan kinerja pohon sebelumnya hingga kita mendapatkan model akhir dengan akurasi prediksi yang tinggi.

Tingkatkan pembelajaran mesin

Mengapa peningkatan berhasil?

Ternyata boosting mampu menghasilkan beberapa model paling kuat di seluruh pembelajaran mesin.

Di banyak industri, model yang ditingkatkan digunakan sebagai model referensi dalam produksi karena model tersebut cenderung mengungguli semua model lainnya.

Alasan mengapa templat yang ditingkatkan berfungsi dengan baik adalah karena memahami ide sederhana:

1. Pertama, model yang ditingkatkan membangun pohon keputusan yang lemah dan memiliki akurasi prediksi yang rendah. Pohon keputusan ini dikatakan memiliki varians yang rendah dan bias yang tinggi.

2. Karena model yang ditingkatkan mengikuti proses perbaikan berurutan dari pohon keputusan sebelumnya, keseluruhan model mampu mengurangi bias secara perlahan di setiap langkah tanpa meningkatkan varians secara signifikan.

3. Model akhir yang dipasang cenderung memiliki bias dan varians yang cukup rendah, sehingga menghasilkan model yang mampu menghasilkan tingkat kesalahan pengujian yang rendah pada data baru.

Keuntungan dan kerugian dari boosting

Keuntungan nyata dari boosting adalah mampu menghasilkan model dengan akurasi prediksi yang tinggi dibandingkan hampir semua jenis model lainnya.

Kelemahan potensialnya adalah model yang telah diperbaiki dan disesuaikan sangat sulit untuk diinterpretasikan. Meskipun ia menawarkan kemampuan luar biasa untuk memprediksi nilai respons data baru, sulit untuk menjelaskan proses pasti yang digunakannya untuk mencapai hal ini.

Dalam praktiknya, sebagian besar ilmuwan data dan praktisi pembelajaran mesin membuat model yang ditingkatkan karena mereka ingin dapat memprediksi nilai respons data baru secara akurat. Oleh karena itu, fakta bahwa model yang ditingkatkan sulit untuk diinterpretasikan secara umum tidak menjadi masalah.

Penguat dalam praktiknya

Dalam praktiknya, ada banyak jenis algoritma yang digunakan untuk boosting, antara lain:

Bergantung pada ukuran kumpulan data dan kekuatan pemrosesan mesin Anda, salah satu metode berikut mungkin lebih disukai daripada metode lainnya.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *