Pengantar regresi linier berganda


Ketika kita ingin memahami hubungan antara variabel prediktor tunggal dan variabel respon, kita sering menggunakan regresi linier sederhana .

Namun, jika kita ingin memahami hubungan antara beberapa variabel prediktor dan variabel respon, kita dapat menggunakan regresi linier berganda .

Jika kita mempunyai variabel prediktor p , maka model regresi linier berganda berbentuk:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Emas:

  • Y : Variabel respon
  • X j : variabel prediktif ke -j
  • β j : Efek rata-rata pada Y dari peningkatan satu unit X j , dengan menganggap semua prediktor lainnya tetap
  • ε : Istilah kesalahan

Nilai β 0 , β 1 , B 2 , …, β p dipilih menggunakan metode kuadrat terkecil , yang meminimalkan jumlah kuadrat residu (RSS):

RSS = Σ(y saya – ŷ saya ) 2

Emas:

  • Σ : Simbol Yunani yang berarti jumlah
  • y i : nilai respon sebenarnya untuk observasi ke-i
  • ŷ i : Nilai respons yang diprediksi berdasarkan model regresi linier berganda

Metode yang digunakan untuk mencari estimasi koefisien ini dihubungkan pada aljabar matriks dan kami tidak akan membahas detailnya di sini. Untungnya, perangkat lunak statistik apa pun dapat menghitung koefisien ini untuk Anda.

Bagaimana menginterpretasikan keluaran regresi linier berganda

Misalkan kita menyesuaikan model regresi linier berganda dengan menggunakan variabel prediktor , jam belajar dan persiapan ujian yang diambil , serta variabel jawaban nilai ujian .

Tangkapan layar berikut menunjukkan seperti apa hasil regresi linier berganda untuk model ini:

Catatan: Tangkapan layar di bawah menunjukkan keluaran regresi linier berganda untuk Excel , namun angka yang ditampilkan dalam keluaran adalah tipikal keluaran regresi yang akan Anda lihat menggunakan perangkat lunak statistik apa pun.

Menafsirkan Hasil Regresi Linier Berganda

Dari hasil model, koefisien memungkinkan kita membentuk estimasi model regresi linier berganda:

Nilai ujian = 67,67 + 5,56*(jam) – 0,60*(ujian persiapan)

Cara menafsirkan koefisien adalah sebagai berikut:

  • Setiap peningkatan satu unit tambahan dalam jam belajar dikaitkan dengan peningkatan rata-rata sebesar 5,56 poin dalam nilai ujian, dengan asumsi bahwa ujian praktik tetap konstan.
  • Setiap peningkatan satu unit tambahan dalam ujian persiapan yang diambil dikaitkan dengan penurunan rata-rata skor ujian sebesar 0,60 poin, dengan asumsi bahwa jumlah jam belajar tetap konstan.

Kita juga dapat menggunakan model ini untuk menentukan nilai ujian yang diharapkan yang akan diterima siswa berdasarkan jumlah jam belajar dan persiapan ujian yang diambil. Misalnya, seorang siswa yang belajar selama 4 jam dan mengikuti 1 ujian persiapan harus mencapai nilai ujian 89,31 :

Nilai ujian = 67,67 + 5,56*(4) -0,60*(1) = 89,31

Berikut cara menafsirkan hasil model lainnya:

  • R-Square: Ini disebut koefisien determinasi. Merupakan proporsi varians variabel respon yang dapat dijelaskan oleh variabel penjelas. Dalam contoh ini, 73,4% variasi nilai ujian dijelaskan oleh jumlah jam belajar dan jumlah persiapan ujian yang diambil.
  • Kesalahan standar: Ini adalah jarak rata-rata antara nilai yang diamati dan garis regresi. Dalam contoh ini, nilai yang diamati rata-rata menyimpang sebesar 5.366 unit dari garis regresi.
  • F: Ini adalah statistik F keseluruhan untuk model regresi, dihitung sebagai Regresi MS/Residual MS.
  • Arti F: Ini adalah nilai p yang terkait dengan statistik F keseluruhan. Hal ini memberitahu kita apakah model regresi secara keseluruhan signifikan secara statistik atau tidak. Dengan kata lain, hal ini memberi tahu kita apakah gabungan dua variabel penjelas mempunyai hubungan yang signifikan secara statistik dengan variabel respons. Dalam hal ini, nilai p kurang dari 0,05, menunjukkan bahwa variabel penjelas, jumlah jam belajar dan persiapan ujian yang diambil digabungkan, memiliki hubungan yang signifikan secara statistik dengan hasil ujian.
  • Nilai P dari koefisien. Nilai p individual memberi tahu kita apakah setiap variabel penjelas signifikan secara statistik atau tidak. Kita dapat melihat bahwa jam belajar signifikan secara statistik (p = 0,00) sedangkan ujian persiapan yang diambil (p = 0,52) tidak signifikan secara statistik pada α = 0,05. Karena ujian persiapan sebelumnya tidak signifikan secara statistik, kami mungkin memutuskan untuk menghapusnya dari model.

Bagaimana mengevaluasi kesesuaian model regresi linier berganda

Dua angka biasanya digunakan untuk mengevaluasi seberapa cocok model regresi linier berganda dengan kumpulan data:

1. R-squared : Merupakan proporsi varians variabel respon yang dapat dijelaskan oleh variabel prediktor.

Nilai R-squared dapat berkisar antara 0 sampai 1. Nilai 0 menunjukkan bahwa variabel respon tidak dapat dijelaskan sama sekali oleh variabel prediktor. Nilai 1 menunjukkan bahwa variabel respon dapat dijelaskan dengan sempurna tanpa kesalahan oleh variabel prediktor.

Semakin tinggi R square suatu model, semakin baik model tersebut mampu menyesuaikan data.

2. Kesalahan standar: Ini adalah jarak rata-rata antara nilai yang diamati dan garis regresi. Semakin kecil kesalahan standarnya, semakin baik suatu model mampu menyesuaikan data.

Jika kita ingin membuat prediksi menggunakan model regresi, kesalahan standar regresi mungkin merupakan metrik yang lebih berguna untuk diketahui daripada R-kuadrat, karena ini memberi kita gambaran tentang seberapa akurat prediksi kita dalam satuan.

Untuk penjelasan lengkap mengenai pro dan kontra penggunaan R-squared versus standard error untuk mengevaluasi kesesuaian model, lihat artikel berikut:

Asumsi Regresi Linier Berganda

Regresi linier berganda membuat empat asumsi utama tentang data:

1. Hubungan linier : Terdapat hubungan linier antara variabel bebas, x, dan variabel terikat, y.

2. Independensi: Residunya bersifat independen. Secara khusus, tidak ada korelasi antara residu yang berurutan dalam data deret waktu.

3. Homoskedastisitas : Residual mempunyai varian yang konstan pada setiap level x.

4. Normalitas: Residual model berdistribusi normal.

Untuk penjelasan lengkap tentang cara menguji hipotesis tersebut, lihat artikel ini .

Regresi linier berganda menggunakan software

Tutorial berikut memberikan contoh langkah demi langkah tentang cara melakukan regresi linier berganda menggunakan perangkat lunak statistik yang berbeda:

Cara melakukan regresi linier berganda di R
Cara melakukan regresi linier berganda dengan Python
Cara melakukan regresi linier berganda di Excel
Cara melakukan regresi linier berganda di SPSS
Cara melakukan regresi linier berganda di Stata
Cara melakukan regresi linier di Google Sheets

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *