Memahami kesalahan standar regresi


Saat kita menyesuaikan model regresi dengan kumpulan data, kita sering kali tertarik pada seberapa cocok model regresi tersebut dengan kumpulan data. Dua metrik yang umum digunakan untuk mengukur goodness of fit meliputi R kuadrat ( R2 ) dan kesalahan standar regresi , yang sering dinotasikan dengan S.

Tutorial ini menjelaskan cara menafsirkan kesalahan standar regresi (S) serta mengapa hal ini dapat memberikan informasi yang lebih berguna daripada R 2 .

Kesalahan standar versus R-kuadrat dalam regresi

Misalkan kita memiliki kumpulan data sederhana yang menunjukkan berapa jam 12 siswa belajar per hari selama sebulan menjelang ujian penting, serta nilai ujian mereka:

Jika kita memasukkan model regresi linier sederhana ke kumpulan data ini di Excel, kita menerima hasil berikut:

R squared merupakan proporsi varians variabel respon yang dapat dijelaskan oleh variabel prediktor. Dalam hal ini, 65,76% varians nilai ujian dapat dijelaskan oleh jumlah jam belajar.

Kesalahan standar regresi adalah jarak rata-rata antara nilai yang diamati dan garis regresi. Dalam hal ini, nilai yang diamati rata-rata menyimpang sebesar 4,89 satuan dari garis regresi.

Jika kita memplot titik data sebenarnya dengan garis regresi, kita dapat melihatnya dengan lebih jelas:

Perhatikan bahwa beberapa observasi terletak sangat dekat dengan garis regresi, sementara observasi lainnya tidak. Namun rata-rata nilai yang diamati menyimpang sebesar 4,19 satuan dari garis regresi.

Kesalahan standar regresi sangat berguna karena dapat digunakan untuk mengevaluasi keakuratan prediksi. Sekitar 95% pengamatan harus berada dalam +/- dua kesalahan standar regresi, yang merupakan perkiraan cepat dari interval prediksi 95%.

Jika kita ingin membuat prediksi menggunakan model regresi, kesalahan standar regresi mungkin merupakan ukuran yang lebih berguna untuk diketahui daripada R-kuadrat, karena ini memberi kita gambaran seberapa akurat prediksi kita dalam satuan.

Untuk mengilustrasikan mengapa kesalahan standar regresi mungkin merupakan ukuran yang lebih berguna untuk menilai “kesesuaian” suatu model, mari kita pertimbangkan contoh kumpulan data lain yang menunjukkan berapa jam 12 siswa belajar per hari selama satu bulan sebelum ujian penting serta hasil ujian mereka:

Perhatikan bahwa ini adalah kumpulan data yang sama persis seperti sebelumnya, hanya saja semua nilai s dibelah dua . Oleh karena itu, siswa dalam kumpulan data ini belajar tepat separuh waktu belajarnya dibandingkan siswa pada kumpulan data sebelumnya dan menerima tepat separuh nilai ujian.

Jika kita memasukkan model regresi linier sederhana ke kumpulan data ini di Excel, kita menerima hasil berikut:

Perhatikan bahwa R kuadrat 65,76% sama persis dengan contoh sebelumnya.

Namun, kesalahan standar regresi adalah 2.095 , yang merupakan setengah dari kesalahan standar regresi pada contoh sebelumnya.

Jika kita memplot titik data sebenarnya dengan garis regresi, kita dapat melihatnya dengan lebih jelas:

Perhatikan bagaimana observasi dikelompokkan lebih dekat di sekitar garis regresi. Rata-rata nilai yang diamati terletak 2.095 unit dari garis regresi.

Jadi meskipun kedua model regresi memiliki R-kuadrat sebesar 65,76% , kita tahu bahwa model kedua akan memberikan prediksi yang lebih akurat karena memiliki kesalahan standar regresi yang lebih rendah.

Manfaat Menggunakan Kesalahan Standar

Kesalahan standar regresi (S) seringkali lebih berguna untuk diketahui dibandingkan R kuadrat model karena memberikan kita unit sebenarnya. Jika kita ingin menggunakan model regresi untuk menghasilkan prediksi, S dapat dengan mudah memberi tahu kita apakah suatu model cukup akurat untuk digunakan dalam tujuan prediksi.

Misalnya, kita ingin menghasilkan interval prediksi 95% yang memungkinkan kita memprediksi skor ujian hingga 6 poin dari skor sebenarnya.

Model pertama kami memiliki R-kuadrat sebesar 65,76%, namun hal tersebut tidak memberi tahu kami apa pun tentang keakuratan interval prediksi kami. Untungnya, kita juga mengetahui bahwa model pertama memiliki S sebesar 4,19. Artinya, interval prediksi 95% akan memiliki lebar sekitar 2*4,19 = +/- 8,38 unit, yang terlalu lebar untuk interval prediksi kita.

Model kedua kami juga memiliki R-kuadrat sebesar 65,76%, tetapi sekali lagi, ini tidak memberi tahu kami apa pun tentang keakuratan interval prediksi kami. Namun, kita mengetahui bahwa model kedua memiliki S sebesar 2,095. Artinya, interval prediksi 95% akan memiliki lebar sekitar 2*2,095 = +/- 4,19 unit, yang kurang dari 6 sehingga cukup akurat untuk digunakan menghasilkan interval prediksi.

Bacaan lebih lanjut

Pengantar Regresi Linier Sederhana
Berapa nilai R-kuadrat yang bagus?

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *