Cara menguji multikolinearitas di stata
Multikolinearitas dalam analisis regresi terjadi ketika dua atau lebih variabel penjelas berkorelasi tinggi satu sama lain, sehingga tidak memberikan informasi yang unik atau independen dalam model regresi. Jika tingkat korelasi antar variabel cukup tinggi, hal ini dapat menimbulkan masalah saat menyesuaikan dan menafsirkan model regresi.
Misalnya, Anda menjalankan regresi linier berganda dengan variabel berikut:
Respon variabel: lompatan vertikal maksimum
Variabel penjelas: ukuran sepatu, tinggi badan, waktu yang dihabiskan untuk berlatih
Dalam hal ini, variabel penjelas ukuran dan tinggi sepatu mungkin berkorelasi kuat karena orang tinggi cenderung memiliki ukuran sepatu lebih besar. Artinya multikolinearitas kemungkinan besar akan menjadi masalah dalam regresi ini.
Untungnya, multikolinearitas dapat dideteksi menggunakan metrik yang disebut faktor inflasi varians (VIF) , yang mengukur korelasi dan kekuatan korelasi antar variabel penjelas dalam model regresi.
Tutorial ini menjelaskan cara menggunakan VIF untuk mendeteksi multikolinearitas dalam analisis regresi di Stata.
Contoh: multikolinearitas di Stata
Untuk contoh ini, kita akan menggunakan dataset bawaan Stata yang disebut auto . Gunakan perintah berikut untuk memuat kumpulan data:
gunakan secara otomatis
Kita akan menggunakan perintah regress untuk menyesuaikan model regresi linier berganda dengan menggunakan harga sebagai variabel respon dan berat, panjang, dan mpg sebagai variabel penjelas:
regresi harga berat panjang mpg
Selanjutnya, kita akan menggunakan perintah vive untuk menguji multikolinearitas:
hidup
Hal ini menghasilkan nilai VIF untuk setiap variabel penjelas dalam model. Nilai VIF dimulai dari 1 dan tidak memiliki batas atas. Aturan umum untuk menafsirkan VIF adalah:
- Nilai 1 menunjukkan bahwa tidak ada korelasi antara variabel penjelas tertentu dan variabel penjelas lainnya dalam model.
- Nilai antara 1 dan 5 menunjukkan korelasi sedang antara variabel penjelas tertentu dan variabel penjelas lainnya dalam model, namun seringkali tidak cukup parah sehingga memerlukan perhatian khusus.
- Nilai yang lebih besar dari 5 menunjukkan kemungkinan adanya korelasi yang parah antara variabel penjelas tertentu dan variabel penjelas lainnya dalam model. Dalam hal ini, estimasi koefisien dan nilai p pada hasil regresi kemungkinan besar tidak dapat diandalkan.
Terlihat nilai VIF untuk berat dan panjang lebih besar dari 5 yang menunjukkan bahwa kemungkinan besar multikolinearitas menjadi masalah dalam model regresi.
Cara mengatasi multikolinearitas
Seringkali cara termudah untuk menangani multikolinearitas adalah dengan menghapus salah satu variabel yang bermasalah, karena variabel yang Anda hapus kemungkinan besar bersifat mubazir dan menambahkan sedikit informasi unik atau independen ke dalam model.
Untuk menentukan variabel mana yang akan dihapus, kita dapat menggunakan perintah corr untuk membuat matriks korelasi guna menampilkan koefisien korelasi antara masing-masing variabel dalam model, yang dapat membantu kita mengidentifikasi variabel mana yang mungkin berkorelasi tinggi satu sama lain dan dapat menyebabkan masalah multikolinearitas:
harga corr berat panjang mpg
Kita dapat melihat bahwa panjang berkorelasi tinggi dengan berat dan mpg, dan memiliki korelasi terendah dengan variabel respon harga. Dengan demikian, menghilangkan panjang model dapat menyelesaikan masalah multikolinearitas tanpa mengurangi kualitas model regresi secara keseluruhan.
Untuk mengujinya, kita dapat menjalankan kembali analisis regresi dengan hanya menggunakan bobot dan mpg sebagai variabel penjelas:
regresi harga berat mpg
Kita dapat melihat bahwa R-kuadrat yang disesuaikan pada model ini adalah 0,2735 dibandingkan dengan 0,3298 pada model sebelumnya. Hal ini menunjukkan bahwa kegunaan model secara keseluruhan hanya sedikit menurun. Kemudian kita dapat mencari nilai VIF menggunakan perintah VIF :
HIDUP
Kedua nilai VIF yang kurang dari 5 menunjukkan bahwa multikolinearitas tidak lagi menjadi masalah pada model.