Apa itu seleksi mundur? (definisi & #038; contoh)
Dalam statistik, seleksi bertahap adalah prosedur yang dapat kita gunakan untuk membangun model regresi dari sekumpulan variabel prediktor dengan memasukkan dan menghapus prediktor secara bertahap ke dalam model hingga tidak ada lagi alasan yang valid secara statistik untuk masuk. atau hapus lebih banyak.
Tujuan dari pemilihan bertahap adalah untuk menciptakan model regresi yang mencakup semua variabel prediktor yang secara statistik berhubungan signifikan dengan variabel respon .
Salah satu metode seleksi langkah demi langkah yang paling umum digunakan dikenal sebagai seleksi mundur , yang cara kerjanya sebagai berikut:
Langkah 1: Sesuaikan model regresi menggunakan semua variabel prediktor p . Hitung nilai AIC * untuk model tersebut.
Langkah 2: Hapus variabel prediktor yang menghasilkan penurunan AIC terbesar dan juga menghasilkan penurunan AIC yang signifikan secara statistik dibandingkan model dengan semua variabel prediktor p .
Langkah 3: Hilangkan variabel prediktor yang menghasilkan penurunan AIC terbesar dan juga menghasilkan penurunan AIC yang signifikan secara statistik dibandingkan model dengan variabel prediktor p-1 .
Ulangi proses ini hingga penghapusan variabel prediktor tidak lagi menyebabkan penurunan AIC yang signifikan secara statistik.
* Ada beberapa metrik yang dapat Anda gunakan untuk menghitung kesesuaian model regresi, termasuk kesalahan prediksi validasi silang, Cp, BIC, AIC, atau R2 yang disesuaikan. Pada contoh di bawah ini, kami memilih untuk menggunakan AIC.
Contoh berikut menunjukkan cara melakukan seleksi mundur di R.
Contoh: seleksi mundur di R
Untuk contoh ini, kita akan menggunakan dataset mtcars yang ada di dalam R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Kami akan menyesuaikan model regresi linier berganda dengan menggunakan mpg (mil per galon) sebagai variabel respons dan 10 variabel lainnya dalam kumpulan data sebagai variabel prediktor potensial.
Kode berikut menunjukkan cara melangkah mundur:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Berikut cara menafsirkan hasilnya:
Pertama, kami menyesuaikan model menggunakan 10 variabel prediktor dan menghitung AIC model.
Selanjutnya, kami menghilangkan variabel ( cyl ) yang menghasilkan penurunan AIC terbesar dan juga memperoleh penurunan AIC yang signifikan secara statistik dibandingkan dengan 10 model variabel prediktor.
Selanjutnya, kami menghilangkan variabel ( vs ) yang menyebabkan penurunan AIC terbesar dan juga memperoleh penurunan AIC yang signifikan secara statistik dibandingkan dengan model variabel prediktor 9-prediktor.
Selanjutnya, kami menghilangkan variabel ( karbohidrat ) yang menghasilkan penurunan AIC terbesar dan juga memperoleh penurunan AIC yang signifikan secara statistik dibandingkan dengan model variabel 8 prediktor.
Kami mengulangi proses ini hingga menghapus variabel apa pun yang tidak lagi menghasilkan penurunan AIC yang signifikan secara statistik.
Model terakhirnya adalah:
mpg = 9,62 – 3,92*berat + 1,23*qdetik + 2,94*am
Catatan tentang penggunaan AIC
Pada contoh sebelumnya, kami memilih untuk menggunakan AIC sebagai metrik untuk mengevaluasi kesesuaian berbagai model regresi.
AIC adalah singkatan dari Akaike Information Criterion dan dihitung sebagai berikut:
AIC = 2K – 2 ln (L)
Emas:
- K : Jumlah parameter model.
- ln (L) : Log-likelihood model. Ini memberi tahu kita probabilitas model, berdasarkan datanya.
Namun, ada metrik lain yang dapat Anda pilih untuk digunakan guna mengevaluasi kesesuaian model regresi, termasuk kesalahan prediksi validasi silang, Cp, BIC, AIC, atau R2 yang disesuaikan.
Untungnya, sebagian besar perangkat lunak statistik memungkinkan Anda menentukan metrik mana yang ingin Anda gunakan saat menyaring secara retrospektif.
Sumber daya tambahan
Tutorial berikut memberikan informasi tambahan tentang model regresi:
Pengenalan seleksi langsung
Panduan Multikolinearitas dan VIF dalam Regresi
Apa yang dianggap sebagai nilai AIC yang baik?