Multikolinearitas
Artikel ini menjelaskan apa itu multikolinearitas dalam statistik. Nah, Anda akan mengetahui kapan terjadinya multikolinearitas, apa saja akibat dari multikolinearitas, bagaimana cara mengidentifikasi multikolinearitas, dan terakhir bagaimana cara mengatasi masalah tersebut.
Apa itu multikolinearitas?
Multikolinearitas adalah keadaan yang terjadi ketika dua atau lebih variabel penjelas dalam suatu model regresi mempunyai korelasi yang tinggi. Dengan kata lain, dalam model regresi, multikolinearitas terjadi ketika hubungan antara dua variabel atau lebih dalam model sangat kuat.
Misalnya, jika kita menjalankan model regresi yang menghubungkan angka harapan hidup suatu negara dengan jumlah penduduk dan PDB, maka pasti akan terjadi multikolinearitas antara jumlah penduduk dan PDB, karena kedua Variabel ini umumnya berkorelasi kuat. berkorelasi. Oleh karena itu akan sulit untuk menganalisis pengaruh masing-masing variabel terhadap angka harapan hidup.
Logikanya, variabel-variabel dalam suatu model akan selalu berkorelasi satu sama lain; hanya dalam proses yang indah barulah terjadi non-korelasi antar variabel. Namun yang menjadi perhatian kami adalah korelasi antar variabelnya rendah, jika tidak maka kita tidak dapat mengetahui pengaruh masing-masing variabel penjelas terhadap variabel respon.
Penyebab utama multikolinearitas umumnya adalah kecilnya ukuran sampel, adanya hubungan sebab akibat antar variabel penjelas, atau rendahnya variabilitas observasi.
Jenis multikolinearitas
Ada dua jenis multikolinearitas:
- Multikolinearitas eksak : ketika satu atau lebih variabel merupakan kombinasi linier dari variabel lain. Dalam hal ini koefisien korelasi antar variabel multikolinier sama dengan 1.
- Perkiraan multikolinearitas : Tidak ada kombinasi linier antar variabel, tetapi koefisien determinasi antara dua variabel atau lebih sangat mendekati 1 sehingga berkorelasi tinggi.
Konsekuensi dari multikolinearitas
- Nilai koefisien regresi model berubah ketika variabel korelasi ditambahkan, sehingga sulit untuk menginterpretasikan model regresi yang dihasilkan.
- Ketepatan estimasi parameter berkurang, sehingga kesalahan standar koefisien regresi meningkat.
- Beberapa variabel penyebab multikolinearitas tentunya bersifat mubazir sehingga tidak perlu dimasukkan ke dalam model.
- Kemungkinan besar Anda mengalami situasi overfitting, yaitu model mengalami overfitting dan oleh karena itu tidak berguna untuk membuat prediksi.
- Nilai p dari koefisien regresi menjadi kurang dapat diandalkan. Oleh karena itu, lebih sulit menentukan variabel mana yang dimasukkan dan variabel mana yang dikeluarkan dalam model regresi.
Cara mendeteksi multikolinearitas
Salah satu cara untuk mengidentifikasi multikolinearitas adalah dengan menghitung matriks korelasi , karena matriks tersebut memuat koefisien korelasi antara semua variabel sehingga dapat diamati jika suatu pasangan variabel mempunyai korelasi yang tinggi.
Namun dengan matriks korelasi, Anda hanya dapat mengetahui apakah dua variabel saling berhubungan, tetapi Anda tidak dapat mengetahui apakah terdapat kombinasi antara sekumpulan variabel. Untuk melakukan ini, faktor inflasi varians biasanya dihitung.
Faktor inflasi varians (VIF) , disebut juga faktor inflasi varians (VIF) , adalah koefisien statistik yang dihitung untuk setiap variabel penjelas dan menunjukkan korelasi variabel lain dengan variabel penjelas tertentu. Secara konkrit rumusnya adalah sebagai berikut:
Emas
adalah faktor inflasi dari varians variabel iy
adalah koefisien determinasi model regresi yang memiliki variabel i sebagai variabel terikat dan variabel selebihnya sebagai variabel bebas.
Dengan demikian, bergantung pada nilai faktor inflasi varians yang diperoleh, dapat diketahui apakah terjadi multikolinearitas atau tidak:
- VIF = 1 : Apabila faktor variance inflasi sama dengan 1 berarti tidak ada korelasi antara variabel terikat dengan variabel lainnya.
- 1 < IVF < 5 : terdapat korelasi antar variabel, namun bersifat sedang. Pada prinsipnya, tidak perlu melakukan tindakan apa pun untuk memperbaiki multikolinearitas.
- VIF > 5 : Jika faktor inflasi varians lebih besar dari 1, berarti multikolinearitas model tinggi dan oleh karena itu perlu dilakukan upaya untuk mengatasinya.
Dalam praktiknya, faktor inflasi varians biasanya dihitung menggunakan perangkat lunak komputer, karena membuat model regresi untuk setiap variabel dan kemudian mencari nilai koefisiennya secara manual akan memakan waktu lama.
Multikolinearitas yang benar
Langkah-langkah berikut dapat berguna dalam menyelesaikan masalah multikolinearitas dalam model regresi:
- Jika ukuran sampel kecil, menambah jumlah data dapat mengurangi perkiraan multikolinearitas.
- Hapus semua variabel yang menghasilkan multikolinearitas. Jika variabel-variabelnya berkorelasi tinggi, sedikit informasi yang hilang dalam model dan multikolinearitas akan berkurang.
- Buat model regresi dengan menerapkan kriteria kuadrat terkecil parsial (PLS).
- Terkadang Anda dapat membiarkan model regresi apa adanya, dengan multikolinearitas. Misalnya, jika kita hanya ingin membuat model untuk melakukan prediksi dan tidak perlu menginterpretasikannya, kita dapat menggunakan persamaan model untuk memprediksi nilai variabel dependen dengan observasi baru, dengan asumsi pola multikolinearitas berulang. dalam pengamatan baru.