Pilihan subset terbaik dalam pembelajaran mesin (penjelasan dan contoh)


Dalam pembelajaran mesin, kita sering kali ingin membuat model menggunakan sekumpulan variabel prediktor dan variabel respons . Tujuan kami adalah membangun model yang dapat secara efektif menggunakan variabel prediktor untuk memprediksi nilai variabel respon.

Mengingat sekumpulan p variabel prediktor total, ada banyak model yang berpotensi kita buat. Salah satu metode yang dapat kita gunakan untuk memilih model terbaik dikenal sebagai pemilihan subset terbaik dan cara kerjanya sebagai berikut:

1. Misalkan M 0 adalah model nol yang tidak mengandung variabel prediktif.

2. Untuk k = 1, 2, …p:

  • Cocok untuk semua model p C k yang berisi k prediktor persis.
  • Pilih yang terbaik di antara model pCk ini dan beri nama Mk . Definisikan “terbaik” sebagai model dengan R 2 tertinggi atau, setara dengan RSS terendah.

3. Pilih satu model terbaik dari M 0 … M p menggunakan kesalahan prediksi validasi silang, Cp, BIC, AIC atau R 2 yang disesuaikan.

Perhatikan bahwa untuk sekumpulan variabel prediktor p , terdapat 2 p model yang mungkin.

Contoh pemilihan subset terbaik

Misalkan kita memiliki kumpulan data dengan p = 3 variabel prediktor dan variabel respon, y. Untuk melakukan pemilihan subkumpulan terbaik dengan kumpulan data ini, kami akan menyesuaikan model 2 p = 2 3 = 8 berikut:

  • Sebuah model tanpa prediktor
  • Model dengan prediktor x 1
  • Model dengan prediktor x 2
  • Model dengan prediktor x 3
  • Model dengan prediktor x 1 , x 2
  • Model dengan prediktor x 1 , x 3
  • Model dengan prediktor x 2 , x 3
  • Model dengan prediktor x 1 , x 2 , x 3

Kemudian kita akan memilih model dengan R2 tertinggi dari setiap rangkaian model dengan k prediktor. Misalnya, kita mungkin memilih:

  • Sebuah model tanpa prediktor
  • Model dengan prediktor x 2
  • Model dengan prediktor x 1 , x 2
  • Model dengan prediktor x 1 , x 2 , x 3

Kemudian kami akan melakukan validasi silang dan memilih model terbaik yang menghasilkan kesalahan prediksi terendah, Cp, BIC, AIC, atau R2 yang disesuaikan.

Misalnya, kita mungkin memilih model berikut sebagai model “terbaik” karena model tersebut menghasilkan kesalahan prediksi tervalidasi silang yang paling rendah:

  • Model dengan prediktor x 1 , x 2

Kriteria untuk memilih model “terbaik”.

Langkah terakhir dalam memilih subset terbaik adalah memilih model dengan kesalahan prediksi terendah, Cp terendah, BIC terendah, AIC terendah, atau R2 disesuaikan terendah. lebih tinggi.

Berikut rumus yang digunakan untuk menghitung masing-masing metrik tersebut:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 disesuaikan: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Emas:

  • d: Jumlah prediktor
  • n: Jumlah pengamatan
  • σ̂: Estimasi varians kesalahan yang terkait dengan setiap ukuran respons dalam model regresi
  • RSS: Jumlah sisa kuadrat dari model regresi
  • TSS: Jumlah total kuadrat model regresi

Keuntungan dan Kerugian Seleksi Subset Terbaik

Memilih subset terbaik memberikan manfaat berikut:

  • Ini adalah pendekatan sederhana untuk dipahami dan ditafsirkan.
  • Hal ini memungkinkan kami mengidentifikasi model terbaik karena kami mempertimbangkan semua kombinasi variabel prediktor.

Namun metode ini mempunyai kelemahan sebagai berikut:

  • Hal ini dapat menjadi komputasi yang intens. Untuk sekumpulan variabel prediktor p , terdapat 2 p model yang mungkin. Misalnya, dengan 10 variabel prediktor, terdapat 2 10 = 1000 model yang mungkin untuk dipertimbangkan.
  • Karena mempertimbangkan jumlah model yang sangat besar, hal ini berpotensi menemukan model yang berperforma baik pada data pelatihan, namun tidak pada data mendatang. Hal ini dapat menyebabkan overfitting .

Kesimpulan

Meskipun memilih subset terbaik mudah untuk diterapkan dan dipahami, hal ini mungkin tidak praktis jika Anda bekerja dengan set data yang berisi prediktor dalam jumlah besar dan berpotensi menyebabkan overfitting.

Alternatif metode ini dikenal sebagai seleksi bertahap , yang lebih efisien secara komputasi.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *