Panduan multikolinearitas & vif dalam regresi


Multikolinearitas dalam analisis regresi terjadi ketika dua atau lebih variabel prediktor berkorelasi tinggi satu sama lain sehingga tidak memberikan informasi yang unik atau independen dalam model regresi.

Jika tingkat korelasi antar variabel cukup tinggi, hal ini dapat menimbulkan masalah saat menyesuaikan dan menafsirkan model regresi.

Misalnya, Anda menjalankan analisis regresi menggunakan variabel respons lompatan vertikal maksimal dan variabel prediktor berikut:

  • tinggi
  • ukuran sepatu
  • jam yang dihabiskan untuk berlatih per hari

Dalam hal ini, tinggi badan dan ukuran sepatu kemungkinan besar berkorelasi, karena orang yang lebih tinggi cenderung memiliki ukuran sepatu yang lebih besar. Artinya multikolinearitas kemungkinan besar akan menjadi masalah dalam regresi ini.

Tutorial ini menjelaskan mengapa multikolinearitas menjadi masalah, cara mendeteksinya, dan cara memperbaikinya.

Mengapa multikolinearitas menjadi masalah

Salah satu tujuan utama analisis regresi adalah untuk mengisolasi hubungan antara masing-masing variabel prediktor dan variabel respon.

Secara khusus, ketika kami melakukan analisis regresi, kami menafsirkan setiap koefisien regresi sebagai perubahan rata-rata dalam variabel respon, dengan asumsi bahwa semua variabel prediktor lainnya dalam model tetap konstan.

Artinya kita berasumsi bahwa kita mampu mengubah nilai suatu variabel prediktor tertentu tanpa mengubah nilai variabel prediktor lainnya.

Namun, ketika dua atau lebih variabel prediktor berkorelasi tinggi, akan sulit mengubah satu variabel tanpa mengubah variabel lainnya.

Hal ini menyulitkan model regresi untuk memperkirakan secara independen hubungan antara masing-masing variabel prediktor dan variabel respon, karena variabel prediktor cenderung berubah secara serempak.

Secara umum, multikolinearitas menimbulkan dua jenis masalah:

  • Estimasi koefisien model (dan bahkan tanda-tanda koefisiennya) dapat sangat berfluktuasi tergantung pada variabel prediktor lain yang disertakan dalam model.
  • Ketepatan estimasi koefisien berkurang, membuat nilai p tidak dapat diandalkan. Hal ini menyulitkan untuk menentukan variabel prediktor mana yang benar-benar signifikan secara statistik.

Cara mendeteksi multikolinearitas

Cara paling umum untuk mendeteksi multikolinearitas adalah dengan menggunakan variance inflasi faktor (VIF) , yang mengukur korelasi dan kekuatan korelasi antar variabel prediktor dalam model regresi.

Menggunakan Faktor Inflasi Varians (VIF)

Sebagian besar perangkat lunak statistik memiliki kemampuan menghitung VIF untuk model regresi. Nilai VIF dimulai dari 1 dan tidak memiliki batas atas. Aturan umum untuk menafsirkan VIF adalah:

  • Nilai 1 menunjukkan bahwa tidak ada korelasi antara variabel prediktor tertentu dengan variabel prediktor lainnya dalam model.
  • Nilai antara 1 dan 5 menunjukkan korelasi sedang antara variabel prediktor tertentu dan variabel prediktor lainnya dalam model, namun seringkali tidak cukup parah sehingga memerlukan perhatian khusus.
  • Nilai yang lebih besar dari 5 menunjukkan kemungkinan adanya korelasi yang serius antara variabel prediktor tertentu dan variabel prediktor lainnya dalam model. Dalam hal ini, estimasi koefisien dan nilai p pada hasil regresi kemungkinan besar tidak dapat diandalkan.

Misalnya, kita melakukan analisis regresi menggunakan variabel prediktor tinggi badan , ukuran sepatu , dan jam latihan yang dihabiskan per hari untuk memprediksi lompatan vertikal maksimum pemain bola basket dan mendapatkan hasil sebagai berikut:

Pada kolom terakhir, kita dapat melihat bahwa nilai VIF untuk tinggi badan dan ukuran sepatu sama-sama lebih besar dari 5. Hal ini menunjukkan bahwa keduanya kemungkinan besar mengalami multikolinearitas dan estimasi koefisien serta nilai p-nya kemungkinan besar tidak dapat diandalkan.

Jika kita melihat estimasi koefisien untuk ukuran sepatu, model tersebut memberi tahu kita bahwa untuk setiap peningkatan satu unit tambahan pada ukuran sepatu, peningkatan rata-rata lompatan vertikal maksimum adalah -0,67498 inci, dengan asumsi tinggi badan dan jam latihan tetap konstan.

Hal ini tampaknya tidak masuk akal, mengingat kita mengharapkan pemain dengan sepatu yang lebih besar memiliki tinggi badan yang tinggi sehingga memiliki lompatan vertikal maksimum yang lebih tinggi.

Ini adalah contoh klasik multikolinearitas yang membuat estimasi koefisien tampak terlalu dibuat-buat dan tidak intuitif.

Cara mengatasi multikolinearitas

Jika Anda mendeteksi multikolinearitas, langkah selanjutnya adalah memutuskan apakah Anda perlu menyelesaikannya. Bergantung pada tujuan analisis regresi, Anda mungkin tidak perlu menyelesaikan multikolinearitas.

Untuk mengetahui:

1. Jika hanya terdapat multikolinearitas sedang, Anda mungkin tidak perlu menyelesaikannya dengan cara apa pun.

2. Multikolinearitas hanya mempengaruhi variabel prediktor yang saling berkorelasi. Jika Anda tertarik pada variabel prediktor dalam model yang tidak mengalami multikolinearitas, maka multikolinearitas tidak menjadi masalah.

3. Multikolinearitas berdampak pada estimasi koefisien dan nilai p, namun tidak berdampak pada prediksi atau statistik goodness-of-fit. Artinya, jika tujuan utama regresi adalah membuat prediksi dan Anda tidak tertarik untuk memahami hubungan pasti antara variabel prediktor dan variabel respons, maka multikolinearitas tidak perlu diselesaikan.

Jika Anda memutuskan bahwa Anda perlu memperbaiki multikolinearitas, beberapa solusi umum meliputi:

1. Hapus satu atau lebih variabel yang berkorelasi tinggi. Ini adalah solusi tercepat dalam banyak kasus dan sering kali merupakan solusi yang dapat diterima karena variabel yang Anda hapus bersifat mubazir dan hanya menambahkan sedikit informasi unik atau independen ke dalam model.

2. Menggabungkan variabel prediktor secara linier dalam beberapa cara, seperti menambahkan atau menguranginya dalam beberapa cara. Dengan demikian, Anda dapat membuat variabel baru yang mencakup informasi dari kedua variabel dan Anda tidak lagi mengalami masalah multikolinearitas.

3. Melakukan analisis yang dirancang untuk memperhitungkan variabel-variabel yang berkorelasi tinggi, seperti analisis komponen utama atau regresi kuadrat terkecil parsial (PLS) . Teknik-teknik ini dirancang khusus untuk menangani variabel prediktor yang sangat berkorelasi.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *