Pengantar kuadrat terkecil parsial
Salah satu masalah paling umum yang akan Anda temui dalam pembelajaran mesin adalah multikolinearitas . Hal ini terjadi ketika dua atau lebih variabel prediktor dalam kumpulan data berkorelasi tinggi.
Jika hal ini terjadi, suatu model mungkin dapat menyesuaikan dengan kumpulan data pelatihan dengan baik, namun model tersebut mungkin memiliki performa yang buruk pada kumpulan data baru yang belum pernah dilihatnya karena model tersebut terlalu cocok dengan kumpulan data pelatihan. perlengkapan latihan.
Salah satu cara untuk mengatasi masalah multikolinearitas adalah dengan menggunakan regresi komponen utama , yang menghitung M kombinasi linier (disebut “komponen utama”) dari variabel prediktor p asli dan kemudian menggunakan metode kuadrat terkecil agar sesuai dengan model regresi linier menggunakan prinsipal. komponen sebagai prediktor.
Kelemahan dari regresi komponen utama (PCR) adalah tidak memperhitungkan variabel respon saat menghitung komponen utama.
Sebaliknya, pendekatan ini hanya mempertimbangkan besarnya varians antara variabel prediktor yang ditangkap oleh komponen utama. Oleh karena itu, ada kemungkinan dalam beberapa kasus komponen utama yang memiliki deviasi terbesar tidak dapat memprediksi variabel respon dengan baik.
Teknik yang berhubungan dengan PCR dikenal sebagai kuadrat terkecil parsial . Mirip dengan PCR, kuadrat terkecil parsial menghitung M kombinasi linier (disebut “komponen PLS”) dari variabel prediktor p asli dan menggunakan metode kuadrat terkecil agar sesuai dengan model regresi linier yang menggunakan komponen PLS sebagai prediktor.
Namun tidak seperti PCR, kuadrat terkecil parsial berupaya menemukan kombinasi linier yang menjelaskan variasi dalam variabel respons dan variabel prediktor.
Langkah-Langkah Melakukan Partial Least Squares
Dalam praktiknya, langkah-langkah berikut digunakan untuk melakukan kuadrat terkecil parsial.
1. Standarisasi data sedemikian rupa sehingga semua variabel prediktor dan variabel respons mempunyai rata-rata 0 dan simpangan baku 1. Hal ini memastikan bahwa setiap variabel diukur pada skala yang sama.
2. Hitung Z 1 , … , Z M sebagai kombinasi linier M dari prediktor p asli.
- Z m = ΣΦ jm _
- Untuk menghitung Z 1 , tetapkan Φ j1 sama dengan koefisien regresi linier sederhana Y pada X j adalah kombinasi linier dari prediktor yang menangkap varians sebanyak mungkin.
- Untuk menghitung Z 2 , regresikan setiap variabel pada Z 1 dan ambil residunya. Kemudian hitung Z 2 menggunakan data ortogonal ini dengan cara yang persis sama seperti cara menghitung Z 1 .
- Ulangi proses ini M kali untuk mendapatkan komponen M PLS.
3. Gunakan metode kuadrat terkecil untuk menyesuaikan model regresi linier dengan menggunakan komponen PLS Z 1 , … , Z M sebagai prediktor.
4. Terakhir, gunakan validasi silang k-fold untuk menemukan jumlah komponen PLS yang optimal untuk disimpan dalam model. Jumlah komponen PLS yang “optimal” untuk dipertahankan umumnya adalah angka yang menghasilkan test mean square error (MSE) terendah.
Kesimpulan
Jika terdapat multikolinearitas dalam kumpulan data, kinerja regresi kuadrat terkecil parsial cenderung lebih baik dibandingkan regresi kuadrat terkecil biasa. Namun, ada baiknya untuk menyesuaikan beberapa model berbeda sehingga Anda dapat mengidentifikasi model mana yang paling baik dalam menggeneralisasi data yang tidak terlihat.
Dalam praktiknya, kami menyesuaikan berbagai jenis model (PLS, PCR , Ridge , Lasso , Regresi Linier Berganda , dll.) ke kumpulan data dan menggunakan validasi silang k-fold untuk mengidentifikasi model yang menghasilkan pengujian MSE terbaik. lebih rendah pada data baru. .