Bagaimana menafsirkan plot diagnostik di r


Model regresi linier digunakan untuk menggambarkan hubungan antara satu atau lebih variabel prediktor dan suatu variabel respon.

Namun, setelah kita memasang model regresi, ada baiknya juga membuat plot diagnostik untuk menganalisis residu model dan memastikan bahwa model linier sesuai digunakan untuk data tertentu yang sedang kita kerjakan.

Tutorial ini menjelaskan cara membuat dan menafsirkan plot diagnostik untuk model regresi tertentu di R.

Contoh: Membuat dan menafsirkan plot diagnostik di R

Misalkan kita memasang model regresi linier sederhana menggunakan “jam belajar” untuk memprediksi “nilai ujian” siswa di kelas tertentu:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6),
                 score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) 

#fit linear regression model
model = lm(score ~ hours, data=df)

Kita dapat menggunakan perintah plot() untuk menghasilkan empat plot diagnostik untuk model regresi ini:

 #produce diagnostic plots for regression model
plot(model)

plot diagnostik di R

Bagan Diagnostik #1: Residual vs. Bagan Leverage

Grafik ini digunakan untuk mengidentifikasi observasi yang berpengaruh. Jika ada titik pada grafik ini yang berada di luar jarak Cook (garis putus-putus), maka ini merupakan pengamatan yang berpengaruh.

merencanakan residu dan leverage di R

Dalam contoh kita, kita dapat melihat bahwa pengamatan #10 paling dekat dengan batas jarak Cook, namun tidak berada di luar garis titik-titik. Artinya tidak ada poin yang terlalu berpengaruh dalam dataset kami.

Plot Diagnostik #2: Plot Skala dan Lokasi

Grafik ini digunakan untuk memverifikasi asumsi persamaan varians (juga disebut “homoskedastisitas”) di antara sisa model regresi kami. Jika garis merah kira-kira horizontal pada plot, maka asumsi variansi yang sama mungkin terpenuhi.

diplot ke skala dan lokasi di R

Dalam contoh kita, kita dapat melihat bahwa garis merah tidak benar-benar horizontal pada plot, namun tidak menyimpang terlalu liar pada titik mana pun. Kami mungkin menyatakan bahwa asumsi varians yang sama tidak dilanggar dalam kasus ini.

Terkait: Memahami Heteroskedastisitas dalam Analisis Regresi

Jejak diagnostik #3: jejak QQ normal

Plot ini digunakan untuk mengetahui apakah residu dari model regresi berdistribusi normal. Jika titik-titik pada grafik ini terletak kira-kira sepanjang garis diagonal lurus, maka kita dapat mengasumsikan bahwa residunya berdistribusi normal.

Dalam contoh kita, kita dapat melihat bahwa titik-titik tersebut terletak kira-kira di sepanjang garis lurus diagonal. Pengamatan #10 dan #8 menyimpang sedikit dari garis di ujung, tetapi tidak cukup untuk menyatakan bahwa residu tidak berdistribusi normal.

Plot Diagnostik #4: Residu vs. Plot yang Disesuaikan

Plot ini digunakan untuk menentukan apakah residu menunjukkan pola nonlinier. Jika garis merah di tengah plot kira-kira horizontal, kita dapat berasumsi bahwa residu mengikuti pola linier.

Dalam contoh kita, kita dapat melihat bahwa garis merah menyimpang dari garis horizontal sempurna tetapi tidak secara signifikan. Kami mungkin menyatakan bahwa residu mengikuti pola yang kira-kira linier dan model regresi linier sesuai untuk kumpulan data ini.

Sumber daya tambahan

Empat asumsi regresi linier
Apa yang dimaksud dengan residu dalam statistik?
Cara membuat plot sisa di R
Bagaimana menafsirkan plot skala dan lokasi

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *