Bias variabel yang dihilangkan: definisi & contoh


Bias variabel yang dihilangkan terjadi ketika variabel penjelas yang relevan tidak disertakan dalam model regresi , yang dapat mengakibatkan bias pada koefisien satu atau lebih variabel penjelas dalam model.

Variabel yang dihilangkan sering kali dikecualikan dari model regresi karena salah satu dari dua alasan berikut:

1. Data untuk variabel tidak tersedia.

2. Belum diketahui pengaruh variabel penjelas terhadap variabel respon .

Agar variabel yang dihilangkan benar-benar mendistorsi koefisien model, dua kondisi berikut harus dipenuhi:

1. Variabel yang dihilangkan harus dikorelasikan dengan satu atau lebih variabel penjelas dalam model.

2. Variabel yang dihilangkan harus dikorelasikan dengan variabel respon dalam model.

Efek dari bias variabel yang dihilangkan

Misalkan kita memiliki dua variabel penjelas, A dan B, dan sebuah variabel respon, Y. Misalkan kita menyesuaikan model regresi linier sederhana dengan A sebagai satu-satunya variabel penjelas dan tidak menyertakan B dalam model.

Jika B dikorelasikan dengan A dan dikorelasikan dengan Y, hal ini akan mengakibatkan bias dalam estimasi koefisien A. Diagram berikut menunjukkan bagaimana estimasi koefisien A akan bias, bergantung pada sifat hubungannya dengan B:

Bias variabel dihilangkan

Contoh: bias variabel dihilangkan

Misalkan kita ingin mempelajari pengaruh luas persegi terhadap harga real estat dan oleh karena itu kita menerapkan model regresi linier sederhana berikut:

Harga rumah = B 0 + B 1 (luas persegi)

Misalkan kita menemukan bahwa model estimasinya adalah:

Harga Rumah = 40.203,91 + 118,31 (luas persegi)

Cara kami menafsirkan koefisien luas persegi adalah bahwa setiap penambahan satu unit luas persegi dikaitkan dengan kenaikan harga rumah rata-rata sebesar $118,31.

Namun, misalkan kita mengabaikan variabel penjelas usia yang ternyata berkorelasi sangat negatif dengan luas persegi dan berkorelasi sangat negatif dengan harga real estat. Variabel ini seharusnya ada dalam model, namun sebenarnya tidak. Oleh karena itu, estimasi koefisien untuk luas persegi kemungkinan besar bias.

Karena usia berkorelasi negatif dengan variabel penjelas dan respons dalam model, kami memperkirakan estimasi koefisien untuk luas persegi akan memiliki bias positif:

Bias positif dengan bias variabel dihilangkan

Misalkan kita mencari data umur suatu hunian dan kemudian memasukkannya ke dalam model. Modelnya kemudian menjadi:

Harga rumah = B 0 + B 1 (luas persegi) + B 2 (umur)

Misalkan kita menemukan bahwa model estimasinya adalah:

Harga rumah = 123,426.20 + 81.06 (luas persegi) – 1,291.04 (umur)

Perhatikan bahwa estimasi koefisien untuk ukuran luas persegi telah menurun secara signifikan, yang berarti estimasi tersebut memiliki bias positif pada model sebelumnya.

Cara kami menafsirkan koefisien luas persegi dalam model ini adalah bahwa setiap kenaikan tambahan sebesar satu unit luas persegi dikaitkan dengan kenaikan harga rumah rata-rata sebesar $81,06, dengan asumsi bahwa usianya tetap konstan.

Apa yang harus dilakukan terhadap bias variabel yang dihilangkan

Sayangnya, bias variabel yang dihilangkan sering terjadi di dunia nyata karena variabel tertentu secara umum harus dimasukkan dalam model regresi, namun bukan karena datanya tidak tersedia atau hubungan antara variabel tersebut dan variabel respons tidak diketahui.

Jika memungkinkan, Anda harus mencoba memasukkan semua variabel penjelas yang relevan ke dalam model regresi sehingga Anda dapat memahami hubungan sebenarnya antara variabel penjelas dan variabel respons.

Mengeluarkan variabel penjelas yang relevan dari suatu model dapat mempengaruhi interpretasi model secara signifikan, seperti yang kita lihat pada contoh sebelumnya mengenai harga real estat.

Sumber daya tambahan

Apa itu variabel tersembunyi?
Apa yang dimaksud dengan variabel yang membingungkan?

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *