Pengantar regresi komponen utama


Salah satu masalah paling umum yang akan Anda temui saat membuat model adalah multikolinearitas . Hal ini terjadi ketika dua atau lebih variabel prediktor dalam kumpulan data berkorelasi tinggi.

Jika hal ini terjadi, model tertentu mungkin dapat menyesuaikan dengan kumpulan data pelatihan dengan baik, namun kemungkinan besar performa model tersebut akan buruk pada kumpulan data baru yang belum pernah dilihat karena model tersebut terlalu cocok dengan kumpulan data pelatihan.

Salah satu cara untuk menghindari overfitting adalah dengan menggunakan beberapa jenis metode pemilihan subset seperti:

Metode ini berupaya menghilangkan prediktor yang tidak relevan dari model sehingga hanya prediktor terpenting yang mampu memprediksi variasi variabel respons yang tersisa di model akhir.

Cara lain untuk menghindari overfitting adalah dengan menggunakan beberapa jenis metode regularisasi seperti:

Metode ini berupaya untuk membatasi atau mengatur koefisien suatu model untuk mengurangi varians dan dengan demikian menghasilkan model yang mampu melakukan generalisasi dengan baik pada data baru.

Pendekatan yang sama sekali berbeda untuk menangani multikolinearitas dikenal sebagai reduksi dimensi .

Metode pengurangan dimensi yang umum dikenal sebagai regresi komponen utama , yang cara kerjanya sebagai berikut:

1. Asumsikan kumpulan data tertentu berisi p prediktor :

2. Hitung Z 1 , … , Z M sebagai kombinasi linier M dari prediktor p asli.

  • Z m = ΣΦ jm _
  • Z 1 adalah kombinasi linier dari prediktor yang menangkap varians sebanyak mungkin.
  • Z 2 adalah kombinasi linier berikutnya dari prediktor yang menangkap varian terbanyak namun ortogonal (yaitu, tidak berkorelasi) dengan Z 1 .
  • Z 3 kemudian merupakan kombinasi linier berikutnya dari prediktor yang menangkap varian terbanyak namun ortogonal terhadap Z 2 .
  • Dan seterusnya.

3. Gunakan metode kuadrat terkecil untuk menyesuaikan model regresi linier dengan menggunakan komponen utama M pertama Z 1 , …, Z M sebagai prediktor.

Istilah reduksi dimensi berasal dari kenyataan bahwa metode ini hanya harus memperkirakan koefisien M+1 dan bukan koefisien p+1, dimana M < p.

Dengan kata lain, dimensi permasalahan telah dikurangi dari p+1 menjadi M+1.

Dalam banyak kasus di mana terdapat multikolinearitas dalam kumpulan data, regresi komponen utama mampu menghasilkan model yang dapat menggeneralisasi data baru dengan lebih baik dibandingkan regresi linier berganda konvensional.

Langkah-Langkah Melakukan Regresi Komponen Utama

Dalam praktiknya, langkah-langkah berikut digunakan untuk melakukan regresi komponen utama:

1. Standarisasikan prediktor.

Pertama, kami biasanya membakukan data sedemikian rupa sehingga setiap variabel prediktor memiliki nilai rata-rata 0 dan deviasi standar 1. Hal ini mencegah satu prediktor memiliki pengaruh yang terlalu besar, terutama jika diukur dalam satuan yang berbeda (c yaitu, jika 1 diukur dalam inci). dan X 2 diukur dalam yard).

2. Menghitung komponen utama dan melakukan regresi linier dengan menggunakan komponen utama sebagai prediktor.

Selanjutnya, kita menghitung komponen utama dan menggunakan metode kuadrat terkecil untuk menyesuaikan model regresi linier dengan menggunakan komponen utama M pertama Z 1 , …, Z M sebagai prediktor.

3. Putuskan berapa banyak komponen utama yang harus disimpan.

Selanjutnya, kami menggunakan validasi silang k-fold untuk menemukan jumlah komponen utama yang optimal untuk dipertahankan dalam model. Jumlah komponen utama yang “optimal” untuk dipertahankan umumnya adalah jumlah yang menghasilkan mean square error (MSE) terendah dalam pengujian.

Keuntungan dan Kerugian Regresi Komponen Utama

Regresi komponen utama (PCR) menawarkan keuntungan sebagai berikut:

  • PCR cenderung bekerja dengan baik ketika komponen utama pertama mampu menangkap sebagian besar variasi prediktor serta hubungannya dengan variabel respon.
  • PCR dapat bekerja dengan baik meskipun variabel prediktornya sangat berkorelasi, karena PCR menghasilkan komponen utama yang ortogonal (yaitu tidak berkorelasi) satu sama lain.
  • PCR tidak mengharuskan Anda memilih variabel prediktor mana yang akan dikeluarkan dari model karena setiap komponen utama menggunakan kombinasi linier dari semua variabel prediktor.
  • PCR dapat digunakan ketika terdapat lebih banyak variabel prediktor daripada observasi, tidak seperti regresi linier berganda.

Namun, PCR memiliki kelemahan:

  • PCR tidak memperhitungkan variabel respon ketika memutuskan komponen utama mana yang akan dipertahankan atau dihilangkan. Sebaliknya, pendekatan ini hanya mempertimbangkan besarnya varians antara variabel prediktor yang ditangkap oleh komponen utama. Ada kemungkinan bahwa dalam beberapa kasus, komponen utama yang memiliki perbedaan terbesar tidak dapat memprediksi variabel respon dengan baik.

Dalam praktiknya, kami menyesuaikan berbagai jenis model (PCR, Ridge, Lasso, regresi linier berganda, dll.) dan menggunakan validasi silang k-fold untuk mengidentifikasi model yang menghasilkan uji MSE terendah pada data baru.

Jika terdapat multikolinearitas pada kumpulan data asli (hal ini sering terjadi), kinerja PCR cenderung lebih baik dibandingkan regresi kuadrat terkecil biasa. Namun, ada baiknya untuk menyesuaikan beberapa model berbeda sehingga Anda dapat mengidentifikasi model mana yang paling baik dalam menggeneralisasi data yang tidak terlihat.

Regresi Komponen Utama dalam R & Python

Tutorial berikut menunjukkan cara melakukan regresi komponen utama dalam R dan Python:

Regresi Komponen Utama di R (Langkah demi Langkah)
Regresi Komponen Utama dengan Python (Langkah demi Langkah)

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *