Cara menggambar pohon keputusan di r (dengan contoh)
Dalam pembelajaran mesin , pohon keputusan adalah jenis model yang menggunakan sekumpulan variabel prediktor untuk membuat pohon keputusan yang memprediksi nilai variabel respons.
Cara termudah untuk memplot pohon keputusan di R adalah dengan menggunakan fungsi prp() dari paket rpart.plot .
Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya.
Contoh: menggambar pohon keputusan di R
Untuk contoh ini, kami akan menggunakan dataset Hitters dari paket ISLR , yang berisi berbagai informasi tentang 263 pemain baseball profesional.
Kami akan menggunakan kumpulan data ini untuk membuat pohon regresi yang menggunakan home run dan tahun bermain untuk memprediksi gaji pemain tertentu.
Kode berikut menunjukkan cara menyesuaikan pohon regresi ini dan cara menggunakan fungsi prp() untuk menggambar pohon:
library (ISLR) library (rpart) library (rpart.plot) #build the initial decision tree tree <- rpart(Salary ~ Years + HmRun, data=Hitters, control=rpart. control (cp= .0001 )) #identify best cp value to use best <- tree$cptable[which. min (tree$cptable[," xerror "])," CP "] #produce a pruned tree based on the best cp value pruned_tree <- prune (tree, cp=best) #plot the pruned tree prp(pruned_tree)
Perhatikan bahwa kita juga dapat menyesuaikan tampilan pohon keputusan menggunakan argumen faclen , extra , roundint dan digits dalam fungsi prp ():
#plot decision tree using custom arguments
prp(pruned_tree,
faclen= 0 , #use full names for factor labels
extra= 1 , #display number of observations for each terminal node
roundint= F , #don't round to integers in output
digits= 5 ) #display 5 decimal places in output
Kita dapat melihat bahwa pohon tersebut memiliki enam simpul terminal.
Setiap node terminal menampilkan prediksi gaji pemain di node tersebut serta jumlah observasi dari kumpulan data asli yang termasuk dalam peringkat tersebut.
Misalnya, kita dapat melihat bahwa dalam kumpulan data asli, terdapat 90 pemain dengan pengalaman kurang dari 4,5 tahun dan gaji rata-rata mereka adalah $225,83K .
Kita juga dapat menggunakan pohon tersebut untuk memprediksi gaji pemain tertentu berdasarkan pengalaman bertahun-tahun dan rata-rata home run mereka.
Misalnya, seorang pemain yang memiliki pengalaman 7 tahun dan rata-rata 4 home run memiliki gaji yang diharapkan sebesar $502,81k .
Inilah salah satu keuntungan menggunakan pohon keputusan: kita dapat dengan mudah memvisualisasikan dan menafsirkan hasilnya.
Sumber daya tambahan
Tutorial berikut memberikan informasi tambahan tentang pohon keputusan:
Pengantar pohon klasifikasi dan regresi
Pohon keputusan vs hutan acak: apa bedanya?
Cara menyesuaikan pohon klasifikasi dan regresi di R