Bagaimana menafsirkan plot diagnostik di r
Model regresi linier digunakan untuk menggambarkan hubungan antara satu atau lebih variabel prediktor dan suatu variabel respon.
Namun, setelah kita memasang model regresi, ada baiknya juga membuat plot diagnostik untuk menganalisis residu model dan memastikan bahwa model linier sesuai digunakan untuk data tertentu yang sedang kita kerjakan.
Tutorial ini menjelaskan cara membuat dan menafsirkan plot diagnostik untuk model regresi tertentu di R.
Contoh: Membuat dan menafsirkan plot diagnostik di R
Misalkan kita memasang model regresi linier sederhana menggunakan “jam belajar” untuk memprediksi “nilai ujian” siswa di kelas tertentu:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6), score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) #fit linear regression model model = lm(score ~ hours, data=df)
Kita dapat menggunakan perintah plot() untuk menghasilkan empat plot diagnostik untuk model regresi ini:
#produce diagnostic plots for regression model
plot(model)
Bagan Diagnostik #1: Residual vs. Bagan Leverage
Grafik ini digunakan untuk mengidentifikasi observasi yang berpengaruh. Jika ada titik pada grafik ini yang berada di luar jarak Cook (garis putus-putus), maka ini merupakan pengamatan yang berpengaruh.
Dalam contoh kita, kita dapat melihat bahwa pengamatan #10 paling dekat dengan batas jarak Cook, namun tidak berada di luar garis titik-titik. Artinya tidak ada poin yang terlalu berpengaruh dalam dataset kami.
Plot Diagnostik #2: Plot Skala dan Lokasi
Grafik ini digunakan untuk memverifikasi asumsi persamaan varians (juga disebut “homoskedastisitas”) di antara sisa model regresi kami. Jika garis merah kira-kira horizontal pada plot, maka asumsi variansi yang sama mungkin terpenuhi.
Dalam contoh kita, kita dapat melihat bahwa garis merah tidak benar-benar horizontal pada plot, namun tidak menyimpang terlalu liar pada titik mana pun. Kami mungkin menyatakan bahwa asumsi varians yang sama tidak dilanggar dalam kasus ini.
Terkait: Memahami Heteroskedastisitas dalam Analisis Regresi
Jejak diagnostik #3: jejak QQ normal
Plot ini digunakan untuk mengetahui apakah residu dari model regresi berdistribusi normal. Jika titik-titik pada grafik ini terletak kira-kira sepanjang garis diagonal lurus, maka kita dapat mengasumsikan bahwa residunya berdistribusi normal.
Dalam contoh kita, kita dapat melihat bahwa titik-titik tersebut terletak kira-kira di sepanjang garis lurus diagonal. Pengamatan #10 dan #8 menyimpang sedikit dari garis di ujung, tetapi tidak cukup untuk menyatakan bahwa residu tidak berdistribusi normal.
Plot Diagnostik #4: Residu vs. Plot yang Disesuaikan
Plot ini digunakan untuk menentukan apakah residu menunjukkan pola nonlinier. Jika garis merah di tengah plot kira-kira horizontal, kita dapat berasumsi bahwa residu mengikuti pola linier.
Dalam contoh kita, kita dapat melihat bahwa garis merah menyimpang dari garis horizontal sempurna tetapi tidak secara signifikan. Kami mungkin menyatakan bahwa residu mengikuti pola yang kira-kira linier dan model regresi linier sesuai untuk kumpulan data ini.
Sumber daya tambahan
Empat asumsi regresi linier
Apa yang dimaksud dengan residu dalam statistik?
Cara membuat plot sisa di R
Bagaimana menafsirkan plot skala dan lokasi