Pengertian heteroskedastisitas dalam analisis regresi


Dalam analisis regresi, heteroskedastisitas (terkadang dieja heteroskedastisitas) mengacu pada penyebaran residu atau istilah kesalahan yang tidak merata. Lebih tepatnya, hal ini terjadi ketika terdapat perubahan sistematis dalam distribusi residu pada rentang nilai terukur.

Heteroskedastisitas menjadi masalah karena regresi kuadrat terkecil biasa (OLS) mengasumsikan bahwa residu berasal dari populasi yang homoskedastisitas , artinya varians konstan.

Ketika terdapat heteroskedastisitas dalam analisis regresi, hasil analisis menjadi sulit dipercaya. Secara khusus, heteroskedastisitas meningkatkan varians estimasi koefisien regresi, namun model regresi tidak memperhitungkannya.

Hal ini membuat model regresi lebih mungkin mengklaim bahwa suatu istilah dalam model tersebut signifikan secara statistik, padahal kenyataannya tidak.

Tutorial ini menjelaskan cara mendeteksi heteroskedastisitas, penyebab terjadinya heteroskedastisitas, dan potensi cara mengatasi masalah heteroskedastisitas.

Cara mendeteksi heteroskedastisitas

Cara paling sederhana untuk mendeteksi heteroskedastisitas adalah dengan menggunakan nilai yang sesuai/plot sisa .

Setelah Anda memasukkan garis regresi ke kumpulan data, Anda dapat membuat plot sebar yang memperlihatkan nilai-nilai yang dipasang pada model dibandingkan dengan sisa dari nilai-nilai yang dipasang tersebut.

Plot sebar di bawah menunjukkan plot tipikal dari nilai yang dipasang versus residu yang terdapat heteroskedastisitas.

Perhatikan bagaimana residu semakin menyebar seiring dengan meningkatnya nilai yang dipasang. Bentuk “kerucut” ini merupakan tanda terjadinya heteroskedastisitas.

Apa penyebab terjadinya heteroskedastisitas?

Heteroskedastisitas terjadi secara alami pada kumpulan data yang memiliki rentang nilai data yang diamati sangat beragam. Misalnya:

  • Pertimbangkan kumpulan data yang mencakup pendapatan dan pengeluaran tahunan 100.000 orang di Amerika Serikat. Bagi masyarakat dengan pendapatan rendah, variabilitas pengeluarannya akan lebih rendah, karena masyarakat tersebut kemungkinan besar hanya memiliki cukup uang untuk membayar kebutuhan. Bagi individu dengan pendapatan lebih tinggi, akan terdapat variabilitas yang lebih besar dalam pengeluaran karena individu tersebut akan memiliki lebih banyak uang untuk dibelanjakan jika mereka menginginkannya. Sebagian masyarakat yang berpendapatan lebih tinggi akan memilih membelanjakan sebagian besar pendapatannya, sementara sebagian lainnya memilih berhemat dan hanya membelanjakan sebagian saja. Oleh karena itu, variabilitas pengeluaran di kalangan masyarakat berpendapatan tinggi akan lebih tinggi.
  • Pertimbangkan kumpulan data yang mencakup populasi dan jumlah toko bunga di 1.000 kota berbeda di Amerika Serikat. Untuk kota-kota berpenduduk jarang, biasanya hanya ada satu atau dua toko bunga yang hadir. Namun di kota-kota yang lebih padat penduduknya, jumlah toko bunga akan jauh lebih bervariasi. Kota-kota ini dapat memiliki antara 10 dan 100 toko. Ini berarti bahwa ketika kita membuat analisis regresi dan menggunakan populasi untuk memprediksi jumlah toko bunga, akan terdapat variabilitas yang lebih besar dalam residu untuk kota-kota yang lebih padat penduduknya.

Beberapa kumpulan data lebih rentan terhadap heteroskedastisitas dibandingkan kumpulan data lainnya.

Cara Memperbaiki Heteroskedastisitas

Ada tiga cara umum untuk mengoreksi heteroskedastisitas:

1. Transformasikan variabel terikat

Salah satu cara untuk mengoreksi heteroskedastisitas adalah dengan mentransformasikan variabel terikat dalam beberapa cara. Transformasi yang umum dilakukan adalah dengan mengambil log variabel terikat.

Misalnya, jika kita menggunakan ukuran populasi (variabel independen) untuk memprediksi jumlah toko bunga di suatu kota (variabel dependen), kita dapat mencoba menggunakan ukuran populasi untuk memprediksi logaritma jumlah toko bunga di sebuah kota.

Penggunaan log variabel dependen, bukan variabel dependen asli, sering kali mengakibatkan hilangnya heteroskedastisitas.

2. Definisikan kembali variabel terikat

Cara lain untuk memperbaiki heteroskedastisitas adalah dengan mendefinisikan kembali variabel terikat. Cara umum untuk melakukan hal ini adalah dengan menggunakan tarif untuk variabel terikat, bukan nilai mentahnya.

Misalnya, daripada menggunakan ukuran populasi untuk memprediksi jumlah toko bunga di suatu kota, kita dapat menggunakan ukuran populasi untuk memprediksi jumlah toko bunga per kapita.

Dalam kebanyakan kasus, hal ini mengurangi variabilitas yang secara alami terjadi dalam populasi yang lebih besar karena kita mengukur jumlah toko bunga per orang, bukan jumlah toko bunga itu sendiri.

3. Gunakan regresi tertimbang

Cara lain untuk mengoreksi heteroskedastisitas adalah dengan menggunakan regresi tertimbang. Jenis regresi ini memberikan bobot pada setiap titik data berdasarkan varians dari nilai yang dipasang.

Pada dasarnya, hal ini memberikan bobot rendah pada titik data yang memiliki varian lebih tinggi, sehingga mengurangi kuadrat residunya. Jika bobot yang digunakan sesuai maka masalah heteroskedastisitas dapat dihilangkan.

Kesimpulan

Heteroskedastisitas adalah masalah yang cukup umum dalam analisis regresi, karena banyak kumpulan data pada dasarnya memiliki varian yang tidak konstan.

Namun, dengan menggunakan plot nilai pas versus plot sisa , heteroskedastisitas dapat dengan mudah dikenali.

Dan dengan mentransformasikan variabel terikat, mendefinisikan ulang variabel terikat, atau menggunakan regresi tertimbang, masalah heteroskedastisitas seringkali dapat dihilangkan.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *