Cara menghitung 'cp' ungu di r


Dalam analisis regresi, Mallows Cp merupakan metrik yang digunakan untuk memilih model regresi terbaik di antara beberapa model potensial.

Kita dapat mengidentifikasi model regresi “terbaik” dengan mengidentifikasi model dengan nilai Cp terendah mendekati p +1, dimana p adalah jumlah variabel prediktor dalam model.

Cara termudah untuk menghitung Cp Mallows di R adalah dengan menggunakan fungsi ols_mallows_cp() dari paket olsrr .

Contoh berikut menunjukkan cara menggunakan fungsi ini untuk menghitung Cp Mallows untuk memilih model regresi terbaik di antara beberapa model potensial di R.

Contoh: perhitungan Mallows Cp di R

Katakanlah kita ingin menyesuaikan tiga model regresi linier berganda yang berbeda menggunakan variabel dari kumpulan data mtcars .

Kode berikut menunjukkan cara menyesuaikan model regresi berikut:

  • Variabel prediktor dalam model lengkap: 10 variabel
  • Variabel prediktor pada model 1: disp, hp, wt, qsec
  • Variabel prediktor pada model 2: disp, qsec
  • Variabel prediktor pada model 3: disp, wt

Kode berikut menunjukkan cara menyesuaikan masing-masing model regresi ini dan menggunakan fungsi ols_mallows_cp() untuk menghitung Mallows Cp setiap model:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Berikut cara menafsirkan hasilnya:

  • Model 1: p + 1 = 5, Mallows Cp = 4,43
  • Model 2: p + 1 = 3, Mallows Cp = 18,64
  • Model 3: p + 1 = 30, Mallows Cp = 9,12

Kita dapat melihat bahwa model 1 memiliki nilai Cp Mallows yang paling mendekati p + 1, yang menunjukkan bahwa model tersebut adalah model terbaik yang menghasilkan bias paling kecil di antara ketiga model potensial.

Catatan mengenai Cp des mauves

Berikut beberapa hal yang perlu diingat tentang Mallows Cp:

  • Jika setiap model potensial memiliki nilai Mallows Cp yang tinggi, hal ini menunjukkan bahwa beberapa variabel prediktor penting kemungkinan besar hilang dari setiap model.
  • Jika beberapa model potensial memiliki nilai Cp Mallow yang rendah, pilihlah model dengan nilai terendah sebagai model terbaik untuk digunakan.

Perlu diingat bahwa Cp Mallows hanyalah salah satu cara untuk mengidentifikasi model regresi “terbaik” di antara beberapa model potensial.

Ukuran lain yang umum digunakan adalah R-squared yang disesuaikan, yang menunjukkan proporsi varians dalam variabel respon yang dapat dijelaskan oleh variabel prediktor dalam model, disesuaikan dengan jumlah variabel prediktor yang digunakan.

Untuk menentukan model regresi mana yang terbaik di antara beberapa model yang berbeda, disarankan untuk melihat Cp Mallows dan R-squared yang disesuaikan.

Sumber daya tambahan

Cara menghitung R-kuadrat yang disesuaikan di R
Cara menghitung AIC di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *