Pengantar mengantongi dalam pembelajaran mesin


Jika hubungan antara sekumpulan variabel prediktor dan variabel respons bersifat linier, kita dapat menggunakan metode seperti regresi linier berganda untuk memodelkan hubungan antar variabel.

Namun, ketika hubungan menjadi lebih kompleks, kita sering kali harus menggunakan metode non-linier.

Salah satu metode tersebut adalah pohon klasifikasi dan regresi (sering disingkat CART), yang menggunakan sekumpulan variabel prediktor untuk membuat pohon keputusan yang memprediksi nilai variabel respons.

Contoh pohon regresi yang menggunakan pengalaman bertahun-tahun dan rata-rata home run untuk memprediksi gaji pemain bisbol profesional.

Namun, kelemahan model CART adalah model tersebut cenderung memiliki varian yang tinggi . Artinya, jika kita membagi kumpulan data menjadi dua bagian dan menerapkan pohon keputusan pada kedua bagian tersebut, hasilnya bisa sangat berbeda.

Salah satu metode yang dapat kita gunakan untuk mengurangi varian model CART dikenal sebagai bagging , terkadang disebut agregasi bootstrap .

Apa itu mengantongi?

Saat kami membuat pohon keputusan tunggal, kami hanya menggunakan satu set data pelatihan untuk membangun model.

Namun, mengantongi menggunakan metode berikut:

1. Ambil b sampel bootstrap dari kumpulan data asli.

  • Ingatlah bahwa sampel bootstrap adalah sampel dari kumpulan data asli di mana observasi diambil dengan penggantian.

2. Buat pohon keputusan untuk setiap sampel bootstrap.

3. Rata-ratakan prediksi dari setiap pohon untuk mendapatkan model akhir.

  • Untuk pohon regresi, kami mengambil rata-rata prediksi yang dibuat oleh pohon B.
  • Untuk pohon klasifikasi, kami mengambil prediksi paling umum yang dibuat oleh pohon- B .

Bagging dapat digunakan dengan algoritma pembelajaran mesin apa pun, namun ini sangat berguna untuk pohon keputusan karena mereka secara inheren memiliki varians yang tinggi dan bagging mampu mengurangi varians secara signifikan, sehingga mengurangi kesalahan pengujian.

Untuk menerapkan bagging pada pohon keputusan, kami menanam satu pohon secara mendalam tanpa memangkasnya. Hal ini menghasilkan pohon individu dengan varian tinggi, namun bias rendah. Kemudian ketika kita mengambil prediksi rata-rata dari pohon-pohon tersebut, kita dapat mengurangi variansnya.

Dalam praktiknya, kinerja optimal biasanya dicapai dengan 50 hingga 500 pohon, namun ribuan pohon dapat disesuaikan untuk menghasilkan model akhir.

Ingatlah bahwa memasang lebih banyak pohon akan memerlukan lebih banyak daya komputasi, yang mungkin menjadi masalah atau tidak tergantung pada ukuran kumpulan data.

Estimasi kesalahan di luar kantong

Ternyata kita dapat menghitung kesalahan pengujian model yang dikantongi tanpa bergantung pada validasi silang k-fold .

Alasannya adalah bahwa setiap sampel bootstrap terbukti berisi sekitar 2/3 observasi dari kumpulan data asli. Sepertiga sisa observasi yang tidak digunakan untuk menyesuaikan pohon yang dikantongi disebut observasi di luar kantong (OOB) .

Nilai observasi ke-i pada dataset asli dapat kita prediksi dengan mengambil rata-rata prediksi dari masing-masing pohon yang observasinya adalah OOB.

Kita dapat menggunakan pendekatan ini untuk membuat prediksi untuk semua n pengamatan dalam kumpulan data asli dan kemudian menghitung tingkat kesalahan, yang merupakan perkiraan kesalahan pengujian yang valid.

Keuntungan menggunakan pendekatan ini untuk memperkirakan kesalahan pengujian adalah bahwa pendekatan ini jauh lebih cepat dibandingkan validasi silang k-fold, terutama bila kumpulan datanya besar.

Memahami pentingnya prediktor

Ingatlah bahwa salah satu kelebihan pohon keputusan adalah mudah diinterpretasikan dan divisualisasikan.

Jika kita menggunakan bagging, kita tidak lagi dapat menginterpretasikan atau memvisualisasikan satu pohon karena model akhir yang dikantongi adalah hasil rata-rata dari banyak pohon yang berbeda. Kami memperoleh akurasi prediksi dengan mengorbankan kemampuan interpretasi.

Namun, kita masih dapat memahami pentingnya setiap variabel prediktor dengan menghitung total pengurangan RSS (jumlah sisa kuadrat) karena distribusi pada prediktor tertentu, yang dirata-ratakan pada semua B- tree. Semakin besar nilainya, semakin penting prediktornya.

Bagan kepentingan variabel untuk model pengantongan
Contoh bagan kepentingan variabel.

Demikian pula, untuk model klasifikasi, kita dapat menghitung total pengurangan indeks Gini karena distribusi pada prediktor tertentu, yang dirata-ratakan pada semua pohon B. Semakin besar nilainya, semakin penting prediktornya.

Jadi, meskipun kami tidak dapat secara tepat menginterpretasikan model akhir secara keseluruhan, kami masih dapat memperoleh gambaran tentang seberapa penting setiap variabel prediktor saat memprediksi respons.

Lebih dari sekadar mengantongi

Keuntungan dari bagging adalah secara umum memberikan peningkatan tingkat kesalahan pengujian dibandingkan dengan pohon keputusan tunggal.

Kelemahannya adalah prediksi dari pengumpulan baggged tree bisa sangat berkorelasi jika terdapat prediktor yang sangat kuat dalam kumpulan data.

Dalam hal ini, sebagian besar atau seluruh pohon yang dikantongi akan menggunakan prediktor ini untuk pembelahan pertama, sehingga menghasilkan pohon-pohon yang mirip satu sama lain dan memiliki prediksi yang sangat berkorelasi.

Salah satu cara mengatasi masalah ini adalah dengan menggunakan hutan acak, yang menggunakan metode yang mirip dengan pembuatan kantong tetapi mampu menghasilkan pohon hias, yang sering kali menghasilkan tingkat kesalahan pengujian yang lebih rendah.

Anda dapat membaca pengenalan sederhana tentang hutan acak di sini .

Sumber daya tambahan

Pengantar pohon klasifikasi dan regresi
Cara Melakukan Bagging di R (Langkah demi Langkah)

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *