Berapa nilai r-kuadrat yang bagus?


R-squared mengukur seberapa cocok model regresi linier dengan kumpulan data. Biasa disebut juga dengan koefisien determinasi , R-squared merupakan proporsi varians variabel respon yang dapat dijelaskan oleh variabel prediktor.

Nilai R-squared dapat berkisar antara 0 sampai 1. Nilai 0 menunjukkan bahwa variabel respon tidak dapat dijelaskan sama sekali oleh variabel prediktor. Nilai 1 menunjukkan bahwa variabel respon dapat dijelaskan dengan sempurna tanpa kesalahan oleh variabel prediktor.

Dalam praktiknya, Anda mungkin tidak akan pernah melihat nilai 0 atau 1 untuk R-kuadrat. Sebaliknya, Anda mungkin akan menemukan nilai antara 0 dan 1.

Misalnya, Anda memiliki kumpulan data yang berisi ukuran populasi dan jumlah toko bunga di 30 kota berbeda. Anda memasukkan model regresi linier sederhana ke kumpulan data, menggunakan ukuran populasi sebagai variabel prediktor dan toko bunga sebagai variabel respons. Pada hasil regresi terlihat bahwa R 2 = 0,2. Hal ini menunjukkan bahwa 20% variasi jumlah toko bunga dapat dijelaskan oleh jumlah populasi.

Hal ini membawa kita pada pertanyaan penting: apakah ini nilai yang “baik” untuk R-squared?

Jawaban atas pertanyaan ini bergantung pada tujuan Anda membuat model regresi. Untuk mengetahui:

1. Apakah Anda ingin menjelaskan hubungan antara prediktor dan variabel respon?

EMAS

2. Apakah Anda ingin memprediksi variabel respon?

Tergantung pada tujuannya, jawaban atas pertanyaan “Berapakah nilai yang baik untuk R kuadrat?” ” akan berbeda.

Jelaskan hubungan antara prediktor dan variabel respon

Jika tujuan utama model regresi Anda adalah untuk menjelaskan hubungan antara prediktor dan variabel respons, R-kuadrat sebenarnya tidak relevan.

Misalnya, dalam contoh regresi di atas Anda melihat bahwa koefisien ukuran populasi prediktif adalah 0,005 dan ini signifikan secara statistik. Artinya, peningkatan satu populasi dikaitkan dengan peningkatan rata-rata sebesar 0,005 jumlah toko bunga di kota tertentu. Selain itu, ukuran populasi merupakan indikator signifikan secara statistik mengenai jumlah toko bunga di suatu kota.

Apakah nilai R-squared model regresi ini adalah 0,2 atau 0,9 tidak mengubah interpretasi ini. Karena Anda hanya tertarik pada hubungan antara ukuran populasi dan jumlah toko bunga, Anda tidak perlu terlalu mengkhawatirkan nilai R-kuadrat dari model tersebut.

Memprediksi variabel respon

Jika tujuan utama Anda adalah memprediksi secara akurat nilai variabel respons menggunakan variabel prediktor, maka R-kuadrat adalah hal yang penting.

Secara umum, semakin besar nilai R-squared maka semakin akurat variabel prediktor dalam memprediksi nilai variabel respon.

Nilai yang diperlukan untuk nilai R-kuadrat bergantung pada presisi yang Anda perlukan. Misalnya, dalam studi ilmiah, R-squared mungkin perlu lebih besar dari 0,95 agar model regresi dianggap andal. Di wilayah lain, R square sebesar 0,3 saja mungkin cukup jika terdapat variabilitas ekstrem dalam kumpulan data.

Untuk mengetahui apa yang dianggap sebagai nilai R-kuadrat yang “baik”, Anda perlu menelusuri nilai R-kuadrat apa yang diterima secara umum di bidang studi khusus Anda. Jika Anda melakukan analisis regresi untuk klien atau perusahaan, Anda mungkin dapat menanyakan kepada mereka apa yang dianggap sebagai nilai R-kuadrat yang dapat diterima.

Interval prediksi

Interval prediksi menentukan rentang di mana observasi baru dapat dilakukan, berdasarkan nilai variabel prediktor. Interval prediksi yang semakin sempit menunjukkan bahwa variabel prediktor dapat memprediksi variabel respon dengan lebih akurat.

Seringkali interval prediksi bisa lebih berguna daripada nilai R-kuadrat karena memberikan Anda rentang nilai yang tepat di mana observasi baru mungkin berada. Ini sangat berguna jika tujuan utama regresi Anda adalah memprediksi nilai baru dari variabel respons.

Misalnya, asumsi populasi 40.000 menghasilkan interval perkiraan 30 hingga 35 toko bunga di kota tertentu. Ini mungkin dianggap sebagai rentang nilai yang dapat diterima atau tidak, bergantung pada penggunaan model regresi.

Kesimpulan

Secara umum, semakin besar nilai R-squared maka semakin akurat variabel prediktor dalam memprediksi nilai variabel respon.

Seberapa bagus nilai R-kuadrat agar dianggap “baik” bervariasi tergantung pada domainnya. Beberapa bidang memerlukan presisi lebih tinggi dibandingkan bidang lainnya.

Untuk mengetahui apa yang dianggap sebagai nilai R-squared yang “baik”, pertimbangkan apa yang diterima secara umum di bidang tempat Anda bekerja, tanyakan pada seseorang yang memiliki pengetahuan khusus di bidang tertentu, atau tanyakan pada klien/klien. perusahaan tempat Anda melakukan analisis regresi. untuk apa yang mereka anggap dapat diterima.

Jika ingin menjelaskan hubungan antara prediktor dan variabel respon, R-squared sebagian besar tidak relevan karena tidak berdampak pada interpretasi model regresi.

Jika Anda ingin memprediksi variabel respons, interval prediksi umumnya lebih berguna dibandingkan nilai R-kuadrat.

Bacaan lebih lanjut:

Koefisien Korelasi Pearson
Pengantar Regresi Linier Sederhana

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *