Bagaimana menafsirkan r-squared yang disesuaikan (dengan contoh)
Saat kita menyesuaikan model regresi linier, kita sering menghitung nilai R-kuadrat dari model tersebut.
Nilai R-squared merupakan proporsi varians variabel respon yang dapat dijelaskan oleh variabel prediktor dalam model.
Nilai R kuadrat dapat bervariasi dari 0 hingga 1 dimana:
- Nilai 0 menunjukkan bahwa variabel respon sama sekali tidak dapat dijelaskan oleh variabel prediktor.
- Nilai 1 menunjukkan bahwa variabel respon dapat dijelaskan secara sempurna oleh variabel prediktor.
Meskipun metrik ini biasanya digunakan untuk mengevaluasi seberapa cocok model regresi dengan kumpulan data, metrik ini memiliki kelemahan yang serius:
Kerugian dari R-kuadrat:
R-squared akan selalu meningkat ketika variabel prediktor baru ditambahkan ke dalam model regresi.
Bahkan jika variabel prediktor baru hampir tidak memiliki hubungan dengan variabel respon, nilai R-kuadrat model akan meningkat, meskipun hanya sedikit.
Oleh karena itu, model regresi dengan jumlah variabel prediktor yang banyak mungkin saja memiliki nilai R-kuadrat yang tinggi, meskipun model tersebut tidak cocok dengan datanya.
Untungnya, ada alternatif selain R-squared yang disebut customized R-squared .
R-squared yang disesuaikan adalah versi modifikasi dari R-squared yang menyesuaikan jumlah prediktor dalam model regresi.
Ini dihitung sebagai berikut:
Disesuaikan R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Emas:
- R 2 : R 2 model
- n : Jumlah pengamatan
- k : Banyaknya variabel prediktor
Karena R-kuadrat selalu meningkat saat Anda menambahkan prediktor ke suatu model, R-kuadrat yang disesuaikan dapat memberi tahu Anda seberapa berguna suatu model, disesuaikan dengan jumlah prediktor dalam suatu model .
Keuntungan dari R-squared yang disesuaikan:
R-squared yang disesuaikan memberi tahu kita seberapa baik sekumpulan variabel prediktor mampu menjelaskan variasi dalam variabel respons, disesuaikan dengan jumlah prediktor dalam suatu model .
Karena cara penghitungannya, R-squared yang disesuaikan dapat digunakan untuk membandingkan kesesuaian model regresi dengan jumlah variabel prediktor yang berbeda.
Untuk lebih memahami customized R-squared, lihat contoh berikut.
Contoh: Memahami Adjusted R-squared dalam Model Regresi
Misalkan seorang profesor mengumpulkan data siswa di kelasnya dan menyesuaikan model regresi berikut untuk memahami bagaimana jam belajar yang dihabiskan dan nilai saat ini di kelas memengaruhi nilai yang diterima siswa pada ujian akhir.
Nilai ujian = β 0 + β 1 (jam yang dihabiskan untuk belajar) + β 2 (nilai saat ini)
Anggaplah model regresi ini memiliki metrik berikut:
- R kuadrat: 0,955
- R-kuadrat yang disesuaikan: 0,946
Sekarang anggaplah guru memutuskan untuk mengumpulkan data mengenai variabel lain untuk setiap siswa: ukuran sepatu.
Meskipun variabel ini seharusnya tidak ada hubungannya dengan nilai ujian akhir, ia memutuskan untuk mengadaptasi model regresi berikut:
Nilai ujian = β 0 + β 1 (jam yang dihabiskan untuk belajar) + β 2 (tahun berjalan) + β 3 (ukuran sepatu)
Anggaplah model regresi ini memiliki metrik berikut:
- R kuadrat: 0,965
- R-kuadrat yang disesuaikan: 0,902
Jika kita hanya melihat nilai R-squared untuk masing-masing kedua model regresi tersebut, kita akan menyimpulkan bahwa model kedua lebih baik digunakan karena memiliki nilai R-squared yang lebih tinggi!
Namun jika dilihat dari nilai Adjusted R-squared , kita mempunyai kesimpulan yang berbeda: lebih baik menggunakan model pertama karena memiliki nilai Adjusted R-squared yang lebih tinggi.
Model kedua hanya mempunyai nilai R-squared yang lebih tinggi karena mempunyai variabel prediktor yang lebih banyak dibandingkan model pertama.
Namun, variabel prediktor yang kami tambahkan (ukuran sepatu) merupakan prediktor yang buruk terhadap nilai ujian akhir, sehingga nilai R-kuadrat yang disesuaikan memberikan sanksi kepada model untuk menambahkan variabel prediktor ini.
Contoh ini menggambarkan mengapa R-squared yang disesuaikan adalah metrik yang lebih baik untuk digunakan saat membandingkan kesesuaian model regresi dengan jumlah variabel prediktor yang berbeda.
Sumber daya tambahan
Tutorial berikut menjelaskan cara menghitung nilai R-kuadrat yang disesuaikan menggunakan perangkat lunak statistik yang berbeda:
Cara menghitung R-kuadrat yang disesuaikan di R
Cara menghitung R-squared yang disesuaikan di Excel
Cara menghitung R-kuadrat yang disesuaikan dengan Python