Cara melakukan regresi yang kuat di r (langkah demi langkah)


Regresi Robust adalah metode yang dapat kita gunakan sebagai alternatif dari regresi kuadrat terkecil biasa ketika terdapat outlier atau observasi yang berpengaruh pada dataset yang kita kerjakan.

Untuk melakukan regresi yang kuat di R, kita dapat menggunakan fungsi rlm() dari paket MASS , yang menggunakan sintaks berikut:

Contoh langkah demi langkah berikut menunjukkan cara melakukan regresi yang kuat di R untuk kumpulan data tertentu.

Langkah 1: Buat datanya

Pertama, mari buat kumpulan data palsu untuk digunakan:

 #create data
df <- data. frame (x1=c(1, 3, 3, 4, 4, 6, 6, 8, 9, 3,
                      11, 16, 16, 18, 19, 20, 23, 23, 24, 25),
                 x2=c(7, 7, 4, 29, 13, 34, 17, 19, 20, 12,
                      25, 26, 26, 26, 27, 29, 30, 31, 31, 32),
                  y=c(17, 170, 19, 194, 24, 2, 25, 29, 30, 32,
                      44, 60, 61, 63, 63, 64, 61, 67, 59, 70))

#view first six rows of data
head(df)

  x1 x2 y
1 1 7 17
2 3 7 170
3 3 4 19
4 4 29 194
5 4 13 24
6 6 34 2

Langkah 2: Lakukan Regresi Kuadrat Terkecil Biasa

Selanjutnya, mari kita sesuaikan model regresi kuadrat terkecil biasa dan buat plot dari residu terstandardisasi .

Dalam praktiknya, kita sering menganggap residu terstandar yang nilai absolutnya lebih besar dari 3 sebagai outlier.

 #fit ordinary least squares regression model
ols <- lm(y~x1+x2, data=df)

#create plot of y-values vs. standardized residuals
plot(df$y, rstandard(ols), ylab=' Standardized Residuals ', xlab=' y ') 
abline(h= 0 ) 

Dari grafik terlihat terdapat dua observasi dengan residu terstandar sekitar 3.

Hal ini menunjukkan bahwa ada dua potensi outlier dalam kumpulan data dan oleh karena itu kita mungkin mendapat manfaat dari regresi yang kuat.

Langkah 3: Lakukan Regresi yang Kuat

Selanjutnya, mari kita gunakan fungsi rlm() agar sesuai dengan model regresi yang kuat:

 library (MASS)

#fit robust regression model
robust <- rlm(y~x1+x2, data=df)

Untuk menentukan apakah model regresi kuat ini memberikan kesesuaian data yang lebih baik dibandingkan dengan model OLS, kita dapat menghitung kesalahan standar sisa dari setiap model.

Kesalahan standar sisa (RSE) adalah cara untuk mengukur simpangan baku dari sisa dalam model regresi. Semakin rendah nilai CSR, semakin baik suatu model mampu menyesuaikan dengan data.

Kode berikut menunjukkan cara menghitung RSE untuk setiap model:

 #find residual standard error of ols model
summary(ols)$sigma

[1] 49.41848

#find residual standard error of ols model
summary(robust)$sigma

[1] 9.369349

Kita dapat melihat bahwa RSE dari model regresi yang kuat jauh lebih rendah dibandingkan dengan model regresi kuadrat terkecil biasa, yang menunjukkan bahwa model regresi yang kuat memberikan kesesuaian yang lebih baik dengan data.

Sumber daya tambahan

Cara melakukan regresi linier sederhana di R
Cara melakukan regresi linier berganda di R
Bagaimana melakukan regresi polinomial di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *