Apa itu seleksi langsung? (definisi & #038; contoh)
Dalam statistik, seleksi bertahap adalah prosedur yang dapat kita gunakan untuk membangun model regresi dari sekumpulan variabel prediktor dengan memasukkan dan menghapus prediktor secara bertahap ke dalam model hingga tidak ada lagi alasan yang valid secara statistik untuk masuk. atau hapus lebih banyak.
Tujuan dari pemilihan bertahap adalah untuk menciptakan model regresi yang mencakup semua variabel prediktor yang secara statistik berhubungan signifikan dengan variabel respon .
Salah satu metode seleksi langkah demi langkah yang paling umum digunakan dikenal sebagai seleksi langsung , yang cara kerjanya sebagai berikut:
Langkah 1: Sesuaikan model regresi intersep saja tanpa variabel prediktor. Hitung nilai AIC * untuk model tersebut.
Langkah 2: Cocokkan semua kemungkinan model regresi satu prediktor. Identifikasi model yang menghasilkan AIC terendah dan juga mengalami penurunan AIC yang signifikan secara statistik dibandingkan dengan model intersep saja.
Langkah 3: Sesuaikan semua model regresi dengan dua kemungkinan prediktor. Identifikasi model yang menghasilkan AIC terendah dan juga mengalami penurunan AIC yang signifikan secara statistik dibandingkan dengan model satu prediksi.
Ulangi proses ini hingga pemasangan model regresi dengan lebih banyak variabel prediktor tidak lagi menghasilkan penurunan AIC yang signifikan secara statistik.
* Ada beberapa metrik yang dapat Anda gunakan untuk menghitung kesesuaian model regresi, termasuk kesalahan prediksi validasi silang, Cp, BIC, AIC, atau R2 yang disesuaikan. Pada contoh di bawah ini, kami memilih untuk menggunakan AIC.
Contoh berikut menunjukkan cara melakukan seleksi langsung di R.
Contoh: seleksi langsung di R
Untuk contoh ini, kita akan menggunakan dataset mtcars yang ada di dalam R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Kami akan menyesuaikan model regresi linier berganda dengan menggunakan mpg (mil per galon) sebagai variabel respons dan 10 variabel lainnya dalam kumpulan data sebagai variabel prediktor potensial.
Kode berikut menunjukkan cara melakukan seleksi langkah demi langkah:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform forward stepwise regression forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 ) #view results of forward stepwise regression forward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 31 1126.0472 115.94345 2 + wt -1 847.72525 30 278.3219 73.21736 3 + cyl -1 87.14997 29 191.1720 63.19800 4 + hp -1 14.55145 28 176.6205 62.66456 #view final model forward$coefficients (Intercept) wt cyl hp 38.7517874 -3.1669731 -0.9416168 -0.0180381
Berikut cara menafsirkan hasilnya:
Pertama, kami menyesuaikan model intersep saja. Model ini memiliki AIC 115.94345 .
Kemudian kami memasukkan semua model yang mungkin ke dalam prediktor. Model yang menghasilkan AIC terendah dan juga mengalami penurunan AIC yang signifikan secara statistik dibandingkan dengan model intersep saja menggunakan prediktor berat . Model ini memiliki AIC sebesar 73.21736 .
Selanjutnya, kami mencocokkan semua model yang mungkin dengan dua prediktor. Model yang menghasilkan AIC terendah dan juga mengalami penurunan AIC yang signifikan secara statistik dibandingkan dengan model prediktor tunggal yang ditambahkan prediktor silinder . Model ini memiliki AIC 63.19800 .
Selanjutnya, kami menyesuaikan semua model yang mungkin ke dalam tiga prediktor. Model yang menghasilkan AIC terendah dan juga mengalami penurunan AIC yang signifikan secara statistik dibandingkan dengan model dua prediktor yang ditambahkan prediktor hp . Model ini memiliki AIC sebesar 62.66456 .
Selanjutnya, kami menyesuaikan semua model yang mungkin ke dalam empat prediktor. Ternyata tidak satu pun dari model ini yang menghasilkan pengurangan AIC secara signifikan, jadi kami menghentikan prosedur tersebut.
Oleh karena itu, model terakhirnya adalah:
mpg = 38,75 – 3,17*berat – 0,94*silinder – 0,02*hyp
Ternyata upaya untuk menambahkan lebih banyak variabel prediktor ke dalam model tidak menghasilkan penurunan AIC yang signifikan secara statistik.
Dengan demikian, kami menyimpulkan bahwa model terbaik adalah model dengan tiga variabel prediktif: wt, cyl dan hp.
Catatan tentang penggunaan AIC
Pada contoh sebelumnya, kami memilih untuk menggunakan AIC sebagai metrik untuk mengevaluasi kesesuaian berbagai model regresi.
AIC adalah singkatan dari Akaike Information Criterion dan dihitung sebagai berikut:
AIC = 2K – 2 ln (L)
Emas:
- K : Jumlah parameter model.
- ln (L) : Log-likelihood model. Hal ini memberi tahu kita seberapa besar kemungkinan model tersebut didasarkan pada data.
Namun, ada metrik lain yang dapat Anda pilih untuk digunakan guna mengevaluasi kesesuaian model regresi, termasuk kesalahan prediksi validasi silang, Cp, BIC, AIC, atau R2 yang disesuaikan.
Untungnya, sebagian besar perangkat lunak statistik memungkinkan Anda menentukan metrik mana yang ingin Anda gunakan saat memilih secara langsung.
Sumber daya tambahan
Tutorial berikut memberikan informasi tambahan tentang model regresi:
Panduan Multikolinearitas dan VIF dalam Regresi
Apa yang dianggap sebagai nilai AIC yang baik?