Apa itu seleksi bertahap? (penjelasan & contoh)


Di bidang pembelajaran mesin, tujuan kami adalah membuat model yang dapat secara efektif menggunakan sekumpulan variabel prediktor untuk memprediksi nilai variabel respons .

Mengingat sekumpulan p variabel prediktor total, ada banyak model yang berpotensi kita buat. Salah satu metode yang dapat kita gunakan untuk memilih model terbaik dikenal sebagai pemilihan subset terbaik , yang berupaya memilih model terbaik dari semua kemungkinan model yang dapat dibangun dengan kumpulan prediktor.

Sayangnya metode ini mempunyai dua kelemahan:

  • Hal ini dapat menjadi komputasi yang intens. Untuk sekumpulan variabel prediktor p , terdapat 2 p model yang mungkin. Misalnya, dengan 10 variabel prediktor, terdapat 2 10 = 1000 model yang mungkin untuk dipertimbangkan.
  • Karena mempertimbangkan jumlah model yang sangat besar, hal ini berpotensi menemukan model yang berperforma baik pada data pelatihan, namun tidak pada data mendatang. Hal ini dapat menyebabkan overfitting .

Alternatif untuk memilih subset terbaik dikenal sebagai seleksi bertahap , yang membandingkan kumpulan model yang jauh lebih kecil.

Ada dua jenis metode pemilihan langkah: pemilihan langkah maju dan pemilihan langkah mundur.

Seleksi maju selangkah demi selangkah

Seleksi maju selangkah demi selangkah berfungsi sebagai berikut:

1. Misalkan M 0 adalah model nol yang tidak mengandung variabel prediktif.

2. Untuk k = 0, 2,… p-1:

  • Cocokkan semua model pk yang meningkatkan prediktor dalam M k dengan variabel prediktor tambahan.
  • Pilih yang terbaik di antara model pk ini dan beri nama M k+1 . Definisikan “terbaik” sebagai model dengan R 2 tertinggi atau, setara dengan RSS terendah.

3. Pilih satu model terbaik dari M 0 … M p menggunakan kesalahan prediksi validasi silang, Cp, BIC, AIC atau R 2 yang disesuaikan.

Seleksi mundur selangkah demi selangkah

Pemilihan langkah mundur berfungsi sebagai berikut:

1. Misalkan M p adalah model lengkap yang memuat semua p variabel prediktif.

2. Untuk k = p, p-1, … 1:

  • Cocokkan semua k model yang berisi semua kecuali satu prediktor dalam Mk , untuk total k-1 variabel prediktor.
  • Pilih yang terbaik di antara k model ini dan beri nama M k-1 . Definisikan “terbaik” sebagai model dengan R 2 tertinggi atau, setara dengan RSS terendah.

3. Pilih satu model terbaik dari M 0 … M p menggunakan kesalahan prediksi validasi silang, Cp, BIC, AIC atau R 2 yang disesuaikan.

Kriteria untuk memilih model “terbaik”.

Langkah terakhir dari seleksi maju dan mundur bertahap adalah memilih model dengan kesalahan prediksi terendah, Cp terendah, BIC terendah, AIC terendah tertinggi, atau R2 disesuaikan tertinggi.

Berikut rumus yang digunakan untuk menghitung masing-masing metrik tersebut:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 disesuaikan: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Emas:

  • d: Jumlah prediktor
  • n: Jumlah pengamatan
  • σ̂: Estimasi varians kesalahan yang terkait dengan setiap ukuran respons dalam model regresi
  • RSS: Jumlah sisa kuadrat dari model regresi
  • TSS: Jumlah total kuadrat model regresi

Keuntungan dan kerugian seleksi bertahap

Seleksi bertahap menawarkan keuntungan sebagai berikut:

Metode ini lebih efisien secara komputasi dibandingkan memilih subset terbaik. Mengingat variabel prediktor p , pemilihan subset terbaik harus sesuai dengan model 2 p .

Sebaliknya, pemilihan bertahap seharusnya hanya sesuai dengan model 1+p(p+ 1)/2. Untuk p = 10 variabel prediktor, pemilihan subset terbaik harus sesuai dengan 1.000 model, sedangkan pemilihan bertahap hanya sesuai dengan 56 model.

Namun, seleksi bertahap mempunyai potensi kerugian sebagai berikut:

Tidak ada jaminan untuk menemukan model terbaik di antara semua model 2p potensial.

Misalnya, kita memiliki kumpulan data dengan p = 3 prediktor. Model satu prediksi terbaik mungkin berisi x 1 dan model dua prediksi terbaik mungkin berisi x 1 dan x 2 .

Dalam hal ini, seleksi maju bertahap akan gagal dalam memilih model dua prediktor terbaik karena M 1 akan berisi x 1 , sehingga M 2 juga harus berisi x 1 serta variabel lainnya.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *