Cara membaca dan menafsirkan tabel regresi
Dalam statistika, regresi merupakan suatu teknik yang dapat digunakan untuk menganalisis hubungan antara variabel prediktor dan variabel respon.
Saat Anda menggunakan perangkat lunak (seperti R, SAS, SPSS, dll.) untuk melakukan analisis regresi, Anda akan menerima tabel regresi yang merangkum hasil regresi sebagai output. Penting untuk mengetahui cara membaca tabel ini agar Anda dapat memahami hasil analisis regresi.
Tutorial ini menunjukkan contoh analisis regresi dan memberikan penjelasan rinci tentang cara membaca dan menginterpretasikan hasil tabel regresi.
Contoh regresi
Misalkan kita memiliki kumpulan data berikut yang menunjukkan jumlah jam belajar, jumlah ujian persiapan yang diambil, dan nilai ujian akhir untuk 12 siswa berbeda:
Untuk menganalisis hubungan antara jam belajar dan persiapan ujian dengan nilai ujian akhir yang diperoleh siswa, kami melakukan regresi linier berganda dengan menggunakan jam belajar dan ujian persiapan sebagai variabel prediktor dan nilai akhir ujian sebagai variabel respon.
Kami menerima hasil berikut:
Memeriksa kesesuaian model
Bagian pertama menunjukkan beberapa angka berbeda yang mengukur kecocokan model regresi, yaitu seberapa baik model regresi mampu “menyesuaikan” kumpulan data.
Berikut cara mengartikan masing-masing angka pada bagian ini:
Beberapa Rs
Ini adalah koefisien korelasi . Ini mengukur kekuatan hubungan linier antara variabel prediktor dan variabel respon. Kelipatan R sebesar 1 menunjukkan hubungan linier sempurna, sedangkan kelipatan R sebesar 0 menunjukkan tidak ada hubungan linier. Kelipatan R adalah akar kuadrat dari R kuadrat (lihat di bawah).
Pada contoh ini, kelipatan R adalah 0,72855 yang menunjukkan adanya hubungan linier yang cukup kuat antara jam belajar dan ujian persiapan prediktor serta nilai ujian akhir variabel respon.
R-kuadrat
Hal ini sering ditulis sebagai r2 dan juga dikenal sebagai koefisien determinasi . Merupakan proporsi varians variabel respon yang dapat dijelaskan oleh variabel prediktor.
Nilai R-squared dapat berkisar antara 0 sampai 1. Nilai 0 menunjukkan bahwa variabel respon tidak dapat dijelaskan sama sekali oleh variabel prediktor. Nilai 1 menunjukkan bahwa variabel respon dapat dijelaskan dengan sempurna tanpa kesalahan oleh variabel prediktor.
Dalam contoh ini, R-kuadratnya adalah 0,5307 , yang menunjukkan bahwa 53,07% varian nilai ujian akhir dapat dijelaskan oleh jumlah jam belajar dan jumlah ujian praktik yang lalu.
Terkait: Berapa nilai R-kuadrat yang bagus?
R-kuadrat yang disesuaikan
Ini adalah versi modifikasi dari R-squared yang telah disesuaikan berdasarkan jumlah prediktor dalam model. Itu selalu kurang dari R kuadrat. R-squared yang disesuaikan dapat berguna untuk membandingkan kesesuaian model regresi yang berbeda satu sama lain.
Dalam contoh ini, R-kuadrat yang disesuaikan adalah 0,4265.
Kesalahan standar regresi
Kesalahan standar regresi adalah jarak rata-rata antara nilai yang diamati dan garis regresi. Dalam contoh ini, nilai yang diamati rata-rata menyimpang sebesar 7,3267 unit dari garis regresi.
Terkait: Memahami Kesalahan Standar Regresi
Komentar
Ini hanyalah jumlah observasi dalam kumpulan data kami. Dalam contoh ini, jumlah observasi adalah 12 .
Menguji signifikansi model regresi secara keseluruhan
Bagian berikut menunjukkan derajat kebebasan, jumlah kuadrat, mean kuadrat, statistik F, dan signifikansi model regresi secara keseluruhan.
Berikut cara mengartikan masing-masing angka pada bagian ini:
Derajat kebebasan regresi
Angka ini sama dengan: banyaknya koefisien regresi – 1. Dalam contoh ini, kita mempunyai suku asli dan dua variabel prediktor, jadi kita mempunyai total tiga koefisien regresi, yang berarti derajat kebebasan regresi adalah 3 – 1 = 2 .
Derajat kebebasan total
Angka ini sama dengan: banyaknya observasi – 1. Dalam contoh ini, kita mempunyai 12 observasi, jadi jumlah derajat kebebasannya adalah 12 – 1 = 11 .
Derajat kebebasan sisa
Angka ini sama dengan: total df – regresi df. Dalam contoh ini, derajat kebebasan sisa adalah 11 – 2 = 9 .
Berarti kotak
Kuadrat rata-rata regresi dihitung dengan regresi SS/regresi df. Dalam contoh ini, regresi MS = 546.53308 / 2 = 273.2665 .
Kuadrat rata-rata sisa dihitung dengan SS sisa/df sisa. Dalam contoh ini, sisa MS = 483.1335 / 9 = 53.68151 .
Statistik F
Statistik f dihitung sebagai regresi MS/sisa MS. Statistik ini menunjukkan apakah model regresi memberikan kesesuaian yang lebih baik terhadap data dibandingkan model yang tidak memuat variabel independen.
Pada dasarnya, ini menguji apakah model regresi secara keseluruhan bermanfaat. Secara umum, jika tidak ada variabel prediktor dalam model yang signifikan secara statistik, maka statistik F keseluruhan juga tidak signifikan secara statistik.
Dalam contoh ini, statistik F adalah 273.2665 / 53.68151 = 5.09 .
Pentingnya F (nilai P)
Nilai terakhir dalam tabel adalah nilai p yang terkait dengan statistik F. Untuk melihat apakah model regresi secara keseluruhan signifikan, Anda dapat membandingkan nilai p dengan tingkat signifikansi; pilihan umum adalah .01, .05, dan .10.
Jika nilai p di bawah tingkat signifikansi, terdapat cukup bukti untuk menyimpulkan bahwa model regresi lebih cocok dengan data dibandingkan model tanpa variabel prediktor. Hasil ini positif karena berarti variabel prediktor model justru meningkatkan kecocokan model.
Dalam contoh ini, nilai p adalah 0,033 , yang berada di bawah tingkat signifikansi umum yaitu 0,05. Hal ini menunjukkan bahwa model regresi secara keseluruhan signifikan secara statistik, yaitu model lebih cocok dengan data dibandingkan model tanpa variabel prediktor.
Menguji signifikansi model regresi secara keseluruhan
Bagian terakhir menyajikan estimasi koefisien, kesalahan standar estimasi, statistik-t, nilai p, dan interval kepercayaan untuk setiap suku dalam model regresi.
Berikut cara mengartikan masing-masing angka pada bagian ini:
Koefisien
Koefisien memberi kita angka yang diperlukan untuk menulis estimasi persamaan regresi:
kamu topi = b 0 + b 1 x 1 + b 2 x 2 .
Dalam contoh ini, persamaan regresi yang diperkirakan adalah:
nilai ujian akhir = 66,99 + 1,299 (jam belajar) + 1,117 (persiapan ujian)
Setiap koefisien individu diartikan sebagai rata-rata kenaikan variabel respon untuk setiap kenaikan satu satuan pada variabel prediktor tertentu, dengan asumsi semua variabel prediktor lainnya tetap konstan. Misalnya, untuk setiap tambahan jam belajar, peningkatan rata-rata yang diharapkan dalam nilai ujian akhir adalah 1.299 poin, dengan asumsi jumlah ujian persiapan yang diambil tetap konstan.
Intersep diartikan sebagai nilai rata-rata yang diharapkan pada ujian akhir untuk siswa yang belajar selama nol jam dan tidak mengikuti ujian persiapan. Dalam contoh ini, seorang siswa diharapkan mendapat skor 66,99 jika mereka belajar selama nol jam dan tidak mengikuti ujian persiapan. Berhati-hatilah saat menafsirkan intersep hasil regresi, karena hal ini tidak selalu masuk akal.
Misalnya, dalam beberapa kasus, intersepnya mungkin berupa angka negatif, yang seringkali tidak memiliki interpretasi yang jelas. Hal ini tidak berarti bahwa model tersebut salah, hanya saja intersepsi itu sendiri tidak boleh diartikan apa pun.
Kesalahan standar, statistik t dan nilai p
Kesalahan standar adalah ukuran ketidakpastian seputar estimasi koefisien untuk setiap variabel.
Statistik-t hanyalah koefisien dibagi dengan kesalahan standar. Misalnya t-stat jam belajar adalah 1,299 / 0,417 = 3,117.
Kolom berikutnya menunjukkan nilai p yang terkait dengan t-stat. Angka ini memberi tahu kita apakah suatu variabel respons tertentu signifikan dalam model. Dalam contoh ini, kita melihat bahwa nilai p untuk jam belajar adalah 0,012 dan nilai p untuk persiapan ujian adalah 0,304. Hal ini menunjukkan bahwa jam belajar merupakan prediktor signifikan terhadap nilai ujian akhir, tidak seperti ujian praktik .
Interval kepercayaan untuk estimasi koefisien
Dua kolom terakhir dari tabel memberikan batas bawah dan atas dari interval kepercayaan 95% untuk estimasi koefisien.
Misalnya, perkiraan koefisien jam belajar adalah 1,299, namun terdapat ketidakpastian mengenai perkiraan ini. Kita tidak pernah tahu pasti apakah ini adalah koefisien pastinya. Jadi interval kepercayaan 95% memberi kita kisaran nilai yang mungkin untuk koefisien sebenarnya.
Dalam hal ini interval kepercayaan 95% untuk jam belajar adalah (0,356, 2,24). Perlu diperhatikan bahwa selang kepercayaan ini tidak mengandung angka “0”, yang berarti kita yakin sepenuhnya bahwa nilai sebenarnya dari koefisien jam belajar adalah bukan nol, yaitu bilangan positif.
Sebaliknya, interval kepercayaan 95% untuk ujian persiapan adalah (-1,201, 3,436). Perhatikan bahwa selang kepercayaan ini mengandung angka “0”, yang berarti nilai sebenarnya dari koefisien persiapan ujian bisa jadi nol, yaitu tidak signifikan dalam memprediksi hasil ujian akhir.
Sumber daya tambahan
Memahami Hipotesis Null untuk Regresi Linier
Memahami Uji F untuk Signifikansi Keseluruhan dalam Regresi
Cara melaporkan hasil regresi