Apa yang dimaksud dengan model pelit?
Model pelit adalah model yang mencapai tingkat kesesuaian yang diinginkan dengan menggunakan variabel penjelas sesedikit mungkin.
Alasan di balik model jenis ini berasal dari gagasan pisau cukur Occam (kadang-kadang disebut “prinsip hemat”) yang mengatakan bahwa penjelasan paling sederhana mungkin adalah penjelasan yang benar.
Jika diterapkan pada statistik, model yang memiliki sedikit parameter tetapi mencapai tingkat kesesuaian yang memuaskan sebaiknya lebih dipilih daripada model yang memiliki banyak parameter dan hanya mencapai tingkat kesesuaian yang sedikit lebih tinggi.
Ada dua alasan untuk ini:
1. Model pelit lebih mudah diinterpretasikan dan dipahami. Model dengan parameter lebih sedikit lebih mudah dipahami dan dijelaskan.
2. Model pelit cenderung memiliki kemampuan prediksi yang lebih besar. Model dengan parameter lebih sedikit cenderung berperforma lebih baik bila diterapkan pada data baru.
Perhatikan dua contoh berikut untuk mengilustrasikan gagasan ini.
Contoh 1: Model pelit = Interpretasi mudah
Misalkan kita ingin membuat model menggunakan serangkaian variabel penjelas terkait real estat untuk memprediksi harga real estat. Pertimbangkan dua model berikut dengan R-kuadratnya yang disesuaikan:
Model 1:
- Persamaan: Harga rumah = 8.830 + 81*(kaki persegi)
- R2 yang disesuaikan : 0,7734
Model 2:
- Persamaan: Harga rumah = 8,921 + 77*(kaki persegi) + 7*(kaki persegi) 2 – 9*(usia) + 600*(kamar tidur) + 38*(kamar mandi)
- R2 yang disesuaikan : 0,7823
Model pertama hanya memiliki satu variabel penjelas dan Adjusted R2 sebesar 0,7734, sedangkan model kedua memiliki lima variabel penjelas dengan Adjusted R2 yang sedikit lebih tinggi.
Berdasarkan prinsip parsimony, kami lebih memilih menggunakan model pertama karena masing-masing model memiliki kemampuan yang kurang lebih sama dalam menjelaskan variasi harga rumah namun model pertama jauh lebih mudah untuk dipahami dan dijelaskan.
Misalnya, pada model pertama, kita mengetahui bahwa peningkatan satu unit luas persegi sebuah rumah dikaitkan dengan kenaikan harga rumah rata-rata sebesar $81. Sangat mudah untuk dipahami dan dijelaskan.
Namun, pada contoh kedua, estimasi koefisien jauh lebih sulit untuk diinterpretasikan. Misalnya, ruangan tambahan di rumah dikaitkan dengan kenaikan rata-rata harga rumah sebesar $600, dengan asumsi luas persegi, umur rumah, dan jumlah kamar mandi tetap konstan. Jauh lebih sulit untuk dipahami dan dijelaskan.
Contoh 2: Model pelit = prediksi yang lebih baik
Model pelit juga cenderung menghasilkan prediksi yang lebih akurat pada kumpulan data baru karena kecil kemungkinannya untuk menyesuaikan dengan kumpulan data asli.
Secara umum, model dengan parameter yang lebih banyak akan menghasilkan kecocokan yang lebih ketat dan nilai R 2 yang lebih tinggi dibandingkan model dengan parameter yang lebih sedikit. Sayangnya, memasukkan terlalu banyak parameter ke dalam model dapat menyebabkan model menyesuaikan dengan noise (atau “keacakan”) data, dan bukan pada hubungan mendasar yang sebenarnya antara variabel penjelas. dan variabel respons.
Artinya, model yang sangat kompleks dengan banyak parameter kemungkinan besar akan memiliki performa yang buruk pada kumpulan data baru yang belum pernah ada sebelumnya, dibandingkan dengan model yang lebih sederhana dengan parameter yang lebih sedikit.
Bagaimana memilih model yang pelit
Mungkin ada seluruh kursus yang dikhususkan untuk topik pemilihan model , tetapi pada dasarnya, memilih model yang pelit berarti memilih model yang memiliki kinerja terbaik menurut suatu metrik.
Metrik yang umum digunakan untuk mengevaluasi model berdasarkan performanya pada set data pelatihan dan jumlah parameternya meliputi:
1. Kriteria Informasi Akaike (AIC)
AIC suatu model dapat dihitung sebagai berikut:
AIC = -2/n * LL + 2 * k/n
Emas:
- n: jumlah observasi dalam dataset pelatihan.
- LL: kemungkinan log model pada kumpulan data pelatihan.
- k : Jumlah parameter dalam model.
Dengan menggunakan metode ini, Anda dapat menghitung AIC setiap model dan kemudian memilih model dengan nilai AIC terendah sebagai model terbaik.
Pendekatan ini cenderung lebih menyukai model yang lebih kompleks dibandingkan metode berikutnya, BIC.
2. Kriteria Informasi Bayesian (BIC)
BIC suatu model dapat dihitung sebagai berikut:
BIC = -2 * LL + log(n) * k
Emas:
- n: jumlah observasi dalam dataset pelatihan.
- log: Logaritma natural (basis e)
- LL: kemungkinan log model pada kumpulan data pelatihan.
- k : Jumlah parameter dalam model.
Dengan menggunakan metode ini, Anda dapat menghitung BIC setiap model dan kemudian memilih model dengan nilai BIC terendah sebagai model terbaik.
Pendekatan ini cenderung menyukai model dengan parameter yang lebih sedikit dibandingkan metode AIC.
3. Panjang Deskripsi Minimum (MDL)
MDL adalah cara untuk mengevaluasi model dari bidang teori informasi. Itu dapat dihitung sebagai berikut:
MDL = L(h) + L(D | h)
Emas:
- h: Modelnya.
- D: Prediksi yang dibuat oleh model.
- L(h): Jumlah bit yang diperlukan untuk mewakili model.
- L(D | h): jumlah bit yang diperlukan untuk mewakili prediksi model pada data pelatihan.
Dengan menggunakan metode ini, Anda dapat menghitung MDL setiap model dan kemudian memilih model dengan nilai MDL terendah sebagai model terbaik.
Tergantung pada jenis permasalahan yang Anda kerjakan, salah satu metode berikut – AIC, BIC, atau MDL – mungkin lebih disukai dibandingkan metode lainnya untuk memilih model pelit.