Apa yang dimaksud dengan jebakan variabel dummy? (definisi & #038; contoh)


Regresi linier adalah metode yang dapat kita gunakan untuk mengukur hubungan antara satu atau lebih variabel prediktor dan variabel respon .

Kami umumnya menggunakan regresi linier dengan variabel kuantitatif . Kadang-kadang disebut variabel “numerik”, ini adalah variabel yang mewakili kuantitas yang dapat diukur. Contohnya meliputi:

  • Jumlah kaki persegi dalam sebuah rumah
  • Ukuran populasi suatu kota
  • Usia seorang individu

Namun terkadang kita ingin menggunakan variabel kategori sebagai variabel prediktor. Ini adalah variabel yang mempunyai nama atau label dan dapat digolongkan ke dalam kategori. Contohnya meliputi:

  • Warna mata (misalnya “biru”, “hijau”, “coklat”)
  • Gender (misalnya “pria”, “wanita”)
  • Status perkawinan (misalnya “menikah”, “lajang”, “bercerai”)

Saat menggunakan variabel kategori, tidak masuk akal untuk hanya menetapkan nilai seperti 1, 2, 3 ke nilai seperti “biru”, “hijau”, dan “coklat”, karena tidak masuk akal untuk mengatakannya hijau itu ganda. berwarna seperti biru atau coklat tiga kali lebih berwarna daripada biru.

Sebaliknya, solusinya adalah dengan menggunakan variabel dummy . Ini adalah variabel yang kami buat khusus untuk analisis regresi dan mengambil salah satu dari dua nilai: nol atau satu.

Banyaknya variabel dummy yang perlu kita buat sama dengan k -1 dimana k adalah banyaknya nilai berbeda yang dapat diambil oleh variabel kategori.

Misalnya, kita mempunyai kumpulan data berikut dan ingin menggunakan status perkawinan dan usia untuk memprediksi pendapatan :

Untuk menggunakan status perkawinan sebagai variabel prediktor dalam model regresi, kita perlu mengubahnya menjadi variabel dummy.

Karena ini saat ini merupakan variabel kategori yang dapat mengambil tiga nilai berbeda (“Lajang”, “Menikah”, atau “Bercerai”), kita perlu membuat k -1 = 3-1 = 2 variabel tiruan.

Untuk membuat variabel dummy ini, kita dapat membiarkan “Tunggal” sebagai nilai dasar karena variabel ini paling sering muncul. Jadi, inilah cara kami mengubah status perkawinan menjadi variabel dummy:

Variabel tiruan dengan tiga nilai

Kita kemudian dapat menggunakan Usia , Menikah , dan Bercerai sebagai variabel prediktor dalam model regresi.

Pada saat membuat variabel dummy, permasalahan yang mungkin timbul disebut dengan jebakan variabel dummy . Hal ini terjadi ketika kita membuat k variabel dummy, bukan k -1 variabel dummy.

Jika hal ini terjadi, setidaknya dua variabel dummy akan mengalami multikolinearitas sempurna. Dengan kata lain, keduanya akan berkorelasi sempurna. Hal ini mengakibatkan perhitungan koefisien regresi dan nilai p yang terkait salah.

Perangkap variabel dummy: Ketika jumlah variabel dummy yang dibuat sama dengan jumlah nilai yang dapat diambil oleh nilai kategoris. Hal ini menyebabkan multikolinearitas, yang mengakibatkan kesalahan perhitungan koefisien regresi dan nilai p.

Misalnya, kita mengubah status perkawinan menjadi variabel dummy berikut:

Contoh jebakan variabel tiruan

Dalam hal ini Lajang dan Menikah berkorelasi sempurna dan mempunyai koefisien korelasi sebesar -1.

Jadi ketika kita melakukan regresi linier berganda, perhitungan koefisien regresinya akan salah.

Bagaimana menghindari jebakan variabel dummy

Anda hanya perlu mengingat satu aturan untuk menghindari jebakan variabel dummy:

Jika suatu variabel kategori dapat mempunyai k nilai yang berbeda, Anda sebaiknya hanya membuat k-1 variabel dummy untuk digunakan dalam model regresi.

Misalnya, Anda ingin mengubah variabel kategori “tahun sekolah” menjadi variabel dummy. Misalkan variabel ini mengambil nilai berikut:

  • Siswa tahun pertama
  • Siswa tahun kedua
  • Muda
  • Senior

Karena variabel ini dapat mengambil 4 nilai berbeda, kita hanya akan membuat 3 variabel dummy. Misalnya, variabel tiruan kita bisa berupa:

  • X 1 = 1 jika mahasiswa tahun kedua; 0 sebaliknya
  • X 2 = 1 jika Junior; 0 sebaliknya
  • X 3 = 1 tahun Senior; 0 sebaliknya

Karena jumlah variabel dummy kurang satu dari jumlah nilai yang dapat diambil oleh “tahun ajaran”, kita dapat menghindari jebakan variabel dummy dan masalah multikolinearitas.

Sumber daya tambahan

Cara menggunakan variabel dummy dalam analisis regresi
Pengantar Regresi Linier Berganda
Panduan Multikolinearitas dalam Regresi

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *