Pengantar pohon klasifikasi dan regresi


Jika hubungan antara sekumpulan variabel prediktor dan variabel respons bersifat linier, metode seperti regresi linier berganda dapat menghasilkan model prediksi yang akurat.

Namun, jika hubungan antara sekumpulan prediktor dan respons sangat nonlinier dan kompleks, maka metode nonlinier mungkin memiliki kinerja yang lebih baik.

Contoh metode nonlinier adalah pohon klasifikasi dan regresi , sering disingkat CART .

Seperti namanya, model CART menggunakan sekumpulan variabel prediktor untuk membuat pohon keputusan yang memprediksi nilai variabel respon.

Misalnya, kita memiliki kumpulan data yang berisi variabel prediktor Tahun Bermain dan Rata-rata Home Run serta variabel respons Gaji Tahunan untuk ratusan pemain bisbol profesional.

Berikut tampilan pohon regresi untuk kumpulan data ini:

Contoh Pohon Regresi

Cara mengartikan pohon tersebut adalah sebagai berikut:

  • Pemain yang telah bermain kurang dari 4,5 tahun memiliki proyeksi gaji $225,8k.
  • Pemain yang bermain lebih dari 4,5 tahun atau lebih dan kurang dari 16,5 home run rata-rata memiliki perkiraan gaji $577,6K.
  • Pemain dengan pengalaman bermain 4,5 tahun atau lebih dan rata-rata 16,5 home run atau lebih memiliki gaji yang diharapkan sebesar $975,6K.

Hasil dari model ini seharusnya masuk akal secara intuitif: pemain dengan pengalaman bertahun-tahun dan rata-rata home run yang lebih banyak cenderung mendapatkan gaji yang lebih tinggi.

Kami kemudian dapat menggunakan model ini untuk memprediksi gaji pemain baru.

Misalnya, seorang pemain telah bermain selama 8 tahun dan rata-rata melakukan 10 home run per tahun. Berdasarkan model kami, kami memperkirakan bahwa pemain ini memiliki gaji tahunan sebesar $577,6k.

Model BOLA BASKET

Beberapa komentar di pohon:

  • Variabel prediksi pertama yang terletak di bagian atas pohon adalah yang paling penting, yaitu variabel yang paling berpengaruh terhadap prediksi nilai variabel respon. Dalam hal ini, tahun-tahun yang dimainkan memprediksi gaji lebih baik daripada rata-rata sirkuit .
  • Daerah di bagian bawah pohon disebut simpul daun . Pohon khusus ini memiliki tiga simpul terminal.

Langkah-langkah membuat model CART

Kita dapat menggunakan langkah-langkah berikut untuk membuat model CART untuk kumpulan data tertentu:

Langkah 1: Gunakan pemisahan biner rekursif untuk menumbuhkan pohon besar pada data pelatihan.

Pertama, kami menggunakan algoritma serakah yang disebut pemisahan biner rekursif untuk menumbuhkan pohon regresi menggunakan metode berikut:

  • Pertimbangkan semua variabel prediktor X 1 , X 2 , … , sisa standar error) yang terendah. .
    • Untuk pohon klasifikasi, kami memilih prediktor dan titik potong sedemikian rupa sehingga pohon yang dihasilkan memiliki tingkat kesalahan klasifikasi terendah.
  • Ulangi proses ini, berhenti hanya ketika setiap node terminal mempunyai kurang dari jumlah observasi minimum tertentu.

Algoritme ini serakah karena pada setiap langkah proses pembuatan pohon, algoritma ini menentukan pemisahan terbaik berdasarkan langkah tersebut saja, daripada melihat ke masa depan dan memilih pemisahan yang akan menghasilkan pohon global yang lebih baik di tahap mendatang.

Langkah 2: Terapkan pemangkasan kompleksitas biaya pada pohon besar untuk mendapatkan rangkaian pohon terbaik, berdasarkan α.

Setelah kita menumbuhkan pohon besar, kita perlu memangkasnya menggunakan metode yang disebut pemangkasan kompleks, yang cara kerjanya sebagai berikut:

  • Untuk setiap pohon yang mungkin dengan simpul terminal T, temukan pohon yang meminimalkan RSS + α|T|.
  • Perhatikan bahwa ketika kita meningkatkan nilai α, pohon dengan lebih banyak simpul terminal akan terkena penalti. Hal ini memastikan bahwa pohon tersebut tidak menjadi terlalu rumit.

Proses ini menghasilkan rangkaian pohon terbaik untuk setiap nilai α.

Langkah 3: Gunakan validasi silang k-fold untuk memilih α.

Setelah kami menemukan pohon terbaik untuk setiap nilai α, kami dapat menerapkan validasi silang k-fold untuk memilih nilai α yang meminimalkan kesalahan pengujian.

Langkah 4: Pilih templat terakhir.

Terakhir, kami memilih model akhir yang sesuai dengan nilai α yang dipilih.

Kelebihan dan kekurangan model CART

Model CART menawarkan keuntungan sebagai berikut:

  • Mereka mudah untuk ditafsirkan.
  • Mudah untuk dijelaskan.
  • Mereka mudah untuk divisualisasikan.
  • Mereka dapat diterapkan pada masalah regresi dan klasifikasi .

Namun model CART mempunyai kelemahan sebagai berikut:

  • Algoritme ini cenderung tidak memiliki akurasi prediksi sebanyak algoritme pembelajaran mesin non-linier lainnya. Namun, dengan mengelompokkan banyak pohon keputusan dengan metode seperti bagging, boosting, dan random forest, akurasi prediksinya dapat ditingkatkan.

Terkait: Cara menyesuaikan pohon klasifikasi dan regresi di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *