Cara menghitung residu dalam analisis regresi
Regresi linier sederhana merupakan salah satu metode statistik yang dapat Anda gunakan untuk memahami hubungan antara dua variabel, x dan y.
Variabel, x , dikenal sebagai variabel prediktor. Variabel lainnya, y , dikenal sebagai variabel respon .
Misalnya, kita memiliki kumpulan data berikut dengan berat dan tinggi badan tujuh orang:
Biarkan berat badan menjadi variabel prediktor dan biarkan tinggi badan menjadi variabel respon.
Jika kita membuat grafik kedua variabel ini menggunakan scatterplot , dengan bobot pada sumbu x dan tinggi pada sumbu y, maka akan terlihat seperti ini:
Dari diagram sebar kita dapat melihat dengan jelas bahwa seiring bertambahnya berat badan, tinggi badan juga cenderung meningkat, tetapi untuk benar-benar mengukur hubungan antara berat badan dan tinggi badan ini kita perlu menggunakan regresi linier.
Dengan menggunakan regresi linier, kita dapat menemukan garis yang paling “sesuai” dengan data kita:
Rumus untuk baris yang paling sesuai ini ditulis:
ŷ = b 0 + b 1 x
dimana ŷ adalah nilai prediksi variabel respon, b 0 adalah intersep, b 1 adalah koefisien regresi, dan x adalah nilai variabel prediktor.
Dalam contoh ini, garis yang paling pas adalah:
ukuran = 32,783 + 0,2001*(berat)
Cara menghitung residu
Perhatikan bahwa titik data dalam diagram sebar kita tidak selalu sesuai persis dengan garis yang paling sesuai:
Perbedaan antara titik data dan garis disebut sisa . Untuk setiap titik data, kita dapat menghitung sisa titik tersebut dengan mengambil selisih antara nilai sebenarnya dan nilai prediksi dari garis yang paling sesuai.
Contoh 1: Perhitungan sisa
Misalnya, ingat berat dan tinggi badan tujuh orang dalam kumpulan data kami:
Individu pertama memiliki berat 140 pon. dan tinggi 60 inci.
Untuk mengetahui perkiraan tinggi badan seseorang, kita dapat memasukkan berat badannya ke dalam persamaan yang paling sesuai:
ukuran = 32,783 + 0,2001*(berat)
Jadi, prediksi ukuran individu tersebut adalah:
tinggi = 32,783 + 0,2001*(140)
tinggi = 60,797 inci
Jadi sisa titik data ini adalah 60 – 60.797 = -0.797 .
Contoh 2: Perhitungan sisa
Kita dapat menggunakan proses yang sama persis seperti yang digunakan di atas untuk menghitung sisa untuk setiap titik data. Misalnya, mari kita hitung sisa untuk individu kedua dalam kumpulan data kita:
Individu kedua memiliki berat 155 pon. dan tinggi 62 inci.
Untuk mengetahui perkiraan tinggi badan seseorang, kita dapat memasukkan berat badannya ke dalam persamaan yang paling sesuai:
ukuran = 32,783 + 0,2001*(berat)
Jadi, prediksi ukuran individu tersebut adalah:
tinggi = 32,783 + 0,2001*(155)
tinggi = 63,7985 inci
Jadi sisa titik data ini adalah 62 – 63.7985 = -1.7985 .
Hitung semua residu
Dengan menggunakan metode yang sama seperti dua contoh sebelumnya, kita dapat menghitung residu untuk setiap titik data:
Perhatikan bahwa beberapa residu positif dan yang lainnya negatif. Jika kita menjumlahkan semua residu, totalnya akan menjadi nol.
Hal ini karena regresi linier menemukan garis yang meminimalkan total kuadrat residu, itulah sebabnya garis tersebut melewati data dengan sempurna, dengan beberapa titik data terletak di atas garis dan yang lainnya di bawah garis.
Lihat residu
Ingatlah bahwa residu hanyalah jarak antara nilai sebenarnya dari data dan nilai yang diprediksi oleh garis regresi yang paling sesuai. Berikut penampakan jarak tersebut secara visual pada titik awan:
Perhatikan bahwa beberapa residu lebih besar dari yang lain. Selain itu, ada sisa yang positif dan ada pula yang negatif, seperti yang telah kami sebutkan sebelumnya.
Membuat jalur sisa
Tujuan penghitungan residu adalah untuk melihat seberapa cocok garis regresi dengan data.
Residu yang lebih besar menunjukkan bahwa garis regresi tidak sesuai dengan data, yaitu titik data sebenarnya tidak mendekati garis regresi.
Residu yang lebih kecil menunjukkan bahwa garis regresi lebih sesuai dengan data, yaitu titik data sebenarnya lebih dekat dengan garis regresi.
Jenis plot yang berguna untuk memvisualisasikan semua residu sekaligus adalah plot sisa. Plot sisa adalah jenis plot yang menampilkan nilai prediksi versus sisa untuk model regresi.
Jenis plot ini sering digunakan untuk mengevaluasi apakah model regresi linier sesuai atau tidak untuk kumpulan data tertentu dan untuk memeriksa heteroskedastisitas residu .
Lihat tutorial ini untuk mempelajari cara membuat plot sisa untuk model regresi linier sederhana di Excel.