Cara menentukan variabel signifikan dalam model regresi
Salah satu pertanyaan utama yang akan Anda tanyakan pada diri sendiri setelah memasang model regresi linier berganda adalah: variabel manakah yang signifikan?
Ada dua metode yang tidak boleh Anda gunakan untuk menentukan arti suatu variabel:
1. Nilai koefisien regresi
Koefisien regresi untuk variabel prediktor tertentu menunjukkan perubahan rata-rata pada variabel respons yang terkait dengan peningkatan satu unit pada variabel prediktor tersebut.
Namun setiap variabel prediktor dalam suatu model biasanya diukur pada skala yang berbeda. Oleh karena itu tidak masuk akal untuk membandingkan nilai absolut dari koefisien regresi untuk menentukan variabel mana yang paling penting.
2. Nilai p dari koefisien regresi
Nilai p dari koefisien regresi dapat memberi tahu Anda apakah variabel prediktor tertentu memiliki hubungan yang signifikan secara statistik dengan variabel respons, namun nilai p tersebut tidak dapat memberi tahu Anda apakah variabel prediktor tertentu secara praktis signifikan di dunia nyata.
Nilai P juga bisa rendah karena ukuran sampel yang besar atau variabilitas yang rendah, yang sebenarnya tidak memberi tahu kita apakah suatu variabel prediktor tertentu bermakna dalam praktiknya atau tidak.
Namun, ada dua metode yang harus Anda gunakan untuk menentukan arti variabel:
1. Koefisien regresi terstandarisasi
Biasanya, saat kita melakukan regresi linier berganda, koefisien regresi yang dihasilkan dalam keluaran model tidak terstandarisasi , artinya koefisien regresi tersebut menggunakan data mentah untuk menemukan garis yang paling sesuai.
Namun, dimungkinkan untuk membakukan setiap variabel prediktor dan variabel respon (dengan mengurangkan nilai rata-rata setiap variabel dari nilai aslinya dan kemudian membaginya dengan standar deviasi variabel) dan kemudian menjalankan regresi, yang menghasilkan koefisien regresi standar .
Dengan membakukan setiap variabel dalam model, maka setiap variabel diukur dalam skala yang sama. Oleh karena itu masuk akal untuk membandingkan nilai absolut dari koefisien regresi dalam hasil untuk memahami variabel mana yang memiliki pengaruh terbesar terhadap variabel respon.
2. Keahlian Materi Pelajaran
Meskipun nilai p dapat memberi tahu Anda apakah terdapat pengaruh yang signifikan secara statistik antara variabel prediktor tertentu dan variabel respons, keahlian pokok bahasan diperlukan untuk memastikan apakah suatu variabel prediktor benar-benar relevan dan harus benar-benar dimasukkan dalam model.
Contoh berikut menunjukkan cara menentukan variabel signifikan dalam model regresi dalam praktiknya.
Contoh: Cara menentukan variabel signifikan dalam model regresi
Misalkan kita memiliki kumpulan data berikut yang berisi informasi tentang umur, ukuran luas, dan harga jual 12 rumah:
Misalkan kita kemudian melakukan regresi linier berganda, menggunakan umur dan luas lahan sebagai variabel prediktor dan harga sebagai variabel respon.
Kami menerima hasil berikut:
Koefisien regresi dalam tabel ini tidak terstandarisasi , artinya koefisien tersebut menggunakan data mentah agar sesuai dengan model regresi ini.
Pada pandangan pertama, tampaknya usia memiliki pengaruh yang jauh lebih besar terhadap harga real estat karena koefisiennya dalam tabel regresi adalah -409.833 , dibandingkan dengan hanya 100.866 untuk variabel prediktor luas persegi .
Namun, kesalahan standarnya jauh lebih besar untuk usia dibandingkan untuk luas persegi, itulah sebabnya nilai p yang sesuai sebenarnya besar untuk usia (p = 0,520) dan kecil untuk luas persegi (p = 0,000).
Penyebab perbedaan koefisien regresi yang ekstrim adalah karena perbedaan ekstrim skala kedua variabel:
- Nilai untuk usia berkisar antara 4 hingga 44 tahun.
- Nilai luas persegi berkisar antara 1.200 hingga 2.800.
Misalkan kita menormalkan data mentah:
Jika kemudian kita melakukan regresi linier berganda dengan menggunakan data standar, maka akan diperoleh hasil regresi sebagai berikut:
Koefisien regresi dalam tabel ini terstandarisasi , artinya mereka menggunakan data terstandar agar sesuai dengan model regresi ini.
Cara menafsirkan koefisien pada tabel adalah sebagai berikut:
- Peningkatan satu deviasi standar pada usia dikaitkan dengan penurunan deviasi standar pada harga rumah sebesar 0,092 , dengan asumsi luas persegi tetap konstan.
- Peningkatan satu deviasi standar dalam luas persegi dikaitkan dengan kenaikan deviasi standar pada harga rumah sebesar 0,885 , dengan asumsi usia tetap konstan.
Sekarang kita dapat melihat bahwa ukuran luas mempunyai pengaruh yang jauh lebih besar terhadap harga rumah dibandingkan usia.
Catatan : Nilai p untuk setiap variabel prediktor sama persis dengan model regresi sebelumnya.
Saat memutuskan model akhir mana yang akan digunakan, kini kita tahu bahwa luas persegi jauh lebih penting dalam memprediksi harga sebuah rumah dibandingkan usianya .
Pada akhirnya, kita perlu menggunakan keahlian yang kita miliki untuk menentukan variabel mana yang akan dimasukkan dalam model akhir, berdasarkan pengetahuan yang ada tentang harga perumahan dan real estat.
Sumber daya tambahan
Tutorial berikut memberikan informasi tambahan tentang model regresi:
Cara Membaca dan Menafsirkan Tabel Regresi
Bagaimana menafsirkan koefisien regresi
Cara menginterpretasikan nilai P dalam regresi linier