Cara menghitung variance inflation factor (vif) di sas


Dalam analisis regresi, multikolinearitas terjadi ketika dua atau lebih variabel prediktor berkorelasi tinggi satu sama lain sehingga tidak memberikan informasi yang unik atau independen dalam model regresi.

Jika tingkat korelasi antar variabel cukup tinggi, hal ini dapat menimbulkan masalah saat menyesuaikan dan menafsirkan model regresi.

Salah satu cara untuk mendeteksi multikolinearitas adalah dengan menggunakan metrik yang dikenal sebagai variance inflasi faktor (VIF) , yang mengukur korelasi dan kekuatan korelasi antar variabel penjelas dalam model regresi .

Tutorial ini menjelaskan cara menghitung VIF di SAS.

Contoh: menghitung VIF di SAS

Untuk contoh ini, kita akan membuat dataset yang mendeskripsikan atribut 10 pemain bola basket:

 /*create dataset*/
data my_data;
    input rating points assists rebounds;
    datalines ;
90 25 5 11
85 20 7 8
82 14 7 10
88 16 8 6
94 27 5 6
90 20 7 9
76 12 6 6
75 15 9 10
87 14 9 10
86 19 5 7
;
run ;

/*view dataset*/
proc print data =my_data; 

Katakanlah kita ingin menyesuaikan model regresi linier berganda dengan menggunakan scoring sebagai variabel respon dan points , assists , dan rebounds sebagai variabel prediktor.

Kita dapat menggunakan PROC REG untuk menyesuaikan model regresi ini dengan opsi VIF untuk menghitung nilai VIF untuk setiap variabel prediktor dalam model:

 /*fit regression model and calculate VIF values*/
proc reg data =my_data;
    model rating = points assists rebounds / lively ;
run ; 

VIF di SAS

Dari tabel Estimasi Parameter , kita dapat melihat nilai VIF untuk masing-masing variabel prediktor:

  • poin: 1,76398
  • membantu: 1,96591
  • rebound: 1,17503

Catatan: Abaikan VIF untuk “Intercept” di template karena nilai ini tidak relevan.

Nilai VIF dimulai dari 1 dan tidak memiliki batas atas. Aturan umum untuk menafsirkan VIF adalah:

  • Nilai 1 menunjukkan bahwa tidak ada korelasi antara variabel prediktor tertentu dengan variabel prediktor lainnya dalam model.
  • Nilai antara 1 dan 5 menunjukkan korelasi sedang antara variabel prediktor tertentu dan variabel prediktor lainnya dalam model, namun seringkali tidak cukup parah sehingga memerlukan perhatian khusus.
  • Nilai yang lebih besar dari 5 menunjukkan kemungkinan adanya korelasi yang serius antara variabel prediktor tertentu dan variabel prediktor lainnya dalam model. Dalam hal ini, estimasi koefisien dan nilai p pada hasil regresi kemungkinan besar tidak dapat diandalkan.

Karena masing-masing nilai VIF variabel prediktor dalam model regresi kita mendekati 1, multikolinearitas tidak menjadi masalah dalam contoh kita.

Cara mengatasi multikolinearitas

Jika Anda menentukan bahwa multikolinearitas merupakan masalah dalam model regresi Anda, ada beberapa cara umum untuk mengatasinya:

1. Hapus satu atau lebih variabel yang berkorelasi tinggi.

Ini adalah solusi tercepat dalam banyak kasus dan sering kali merupakan solusi yang dapat diterima karena variabel yang Anda hapus bersifat mubazir dan hanya menambahkan sedikit informasi unik atau independen ke dalam model.

2. Menggabungkan variabel prediktor secara linier dalam beberapa cara, seperti menambahkan atau menguranginya dalam beberapa cara.

Dengan demikian, Anda dapat membuat variabel baru yang mencakup informasi dari kedua variabel dan Anda tidak lagi mengalami masalah multikolinearitas.

3. Melakukan analisis yang dirancang untuk memperhitungkan variabel-variabel yang berkorelasi tinggi seperti analisis komponen utama atau regresi kuadrat terkecil parsial (PLS).

Teknik-teknik ini dirancang khusus untuk menangani variabel prediktor yang sangat berkorelasi.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di SAS:

Cara melakukan regresi linier berganda di SAS
Cara Membuat Plot Sisa di SAS
Cara menghitung jarak masak di SAS

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *