Apa itu mallow? cp? (definisi & contoh)
Mallows Cp merupakan metrik yang digunakan untuk memilih model regresi terbaik di antara beberapa model yang berbeda.
Ini dihitung sebagai berikut:
Cp = RSS p /S 2 – N + 2(P+1)
Emas:
- RSS p : Jumlah sisa kuadrat untuk model dengan p variabel prediktor
- S 2 : Kuadrat rata-rata sisa model (diperkirakan dengan MSE)
- N: Ukuran sampel
- P : Banyaknya variabel prediktor
Mallows Cp digunakan ketika kita memiliki beberapa variabel prediktor potensial yang ingin kita gunakan dalam model regresi dan kita ingin mengidentifikasi model terbaik yang menggunakan subset dari variabel prediktor tersebut.
Kita dapat mengidentifikasi model regresi “terbaik” dengan mengidentifikasi model yang memiliki nilai Cp terendah kurang dari P+1, dimana P adalah jumlah variabel prediktor dalam model.
Contoh berikut menunjukkan cara menggunakan Mallows Cp untuk memilih model regresi terbaik dari beberapa model potensial.
Contoh: Menggunakan Mallows Cp untuk memilih model terbaik
Mengasumsikan seorang profesor ingin menggunakan jam belajar, ujian persiapan yang diambil, dan IPK kumulatif saat ini sebagai variabel prediktor dalam model regresi untuk memprediksi nilai yang akan diterima siswa pada ujian akhir.
Ini cocok dengan tujuh model regresi yang berbeda dan menghitung nilai Mallows Cp untuk setiap model:
Jika nilai Cp Mallows lebih kecil dari jumlah koefisien model (P+1), maka model dikatakan tidak bias.
Kita dapat melihat bahwa ada dua model yang tidak memihak:
- Model dengan Jam Kerja dan IPK sebagai variabel prediktor (Mallows’ Cp = 2.9, P+1 = 3)
- Model dengan Variabel Prediktor Ujian Persiapan dan IPK (Mallows’ Cp = 2.7, P+1 = 3)
Dari kedua model ini, model yang menggunakan ujian persiapan dan IPK sebagai variabel prediktor memiliki nilai Cp Mallows terendah, yang berarti bahwa model yang lebih baiklah yang menghasilkan bias paling kecil.
Catatan mengenai Cp des mauves
Berikut beberapa hal yang perlu diingat tentang Mallows Cp:
- Model yang mempunyai nilai Mallows Cp mendekati P+1 dikatakan memiliki bias yang rendah.
- Jika setiap model potensial memiliki nilai Mallows Cp yang tinggi, hal ini menunjukkan bahwa beberapa variabel prediktor penting kemungkinan besar hilang dari setiap model.
- Jika beberapa model potensial memiliki nilai Cp Mallow yang rendah, pilihlah model dengan nilai terendah sebagai model terbaik untuk digunakan.
Perlu diingat juga bahwa Cp Mallows hanyalah salah satu cara untuk mengukur kesesuaian model regresi.
Ukuran lain yang umum digunakan adalah R-squared yang disesuaikan, yang menunjukkan proporsi varians dalam variabel respon yang dapat dijelaskan oleh variabel prediktor dalam model, disesuaikan dengan jumlah variabel prediktor yang digunakan.
Untuk menentukan model regresi mana yang terbaik dari daftar beberapa model yang berbeda, ada baiknya untuk melihat Cp Mallows dan R-squared yang disesuaikan.
Sumber daya tambahan
Cara menghitung Mallows Cp di R
Cara menghitung R-kuadrat yang disesuaikan di R