Cara menghitung aic di r (termasuk contoh)


Kriteria Informasi Akaike (AIC) adalah metrik yang digunakan untuk membandingkan kesesuaian model regresi berganda.

Ini dihitung sebagai berikut:

AIC = 2K – 2 ln (L)

Emas:

  • K : Jumlah parameter model. Nilai default K adalah 2, sehingga model dengan hanya satu variabel prediktor akan memiliki nilai K 2+1 = 3.
  • ln (L) : Log-likelihood model. Kebanyakan perangkat lunak statistik dapat menghitung nilai ini secara otomatis untuk Anda.

AIC dirancang untuk menemukan model yang menjelaskan variasi data paling banyak, sekaligus memberi sanksi pada model yang menggunakan jumlah parameter berlebihan.

Setelah Anda memasang beberapa model regresi, Anda dapat membandingkan nilai AIC setiap model. Semakin rendah AIC maka semakin cocok model tersebut.

Untuk menghitung AIC model regresi berganda di R, kita dapat menggunakan fungsi aictab() dari paket AICcmodavg .

Contoh berikut menunjukkan cara menggunakan fungsi ini untuk menghitung dan menafsirkan AIC untuk berbagai model regresi di R.

Contoh: menghitung dan menafsirkan AIC di R

Katakanlah kita ingin menyesuaikan tiga model regresi linier berganda yang berbeda menggunakan variabel dari kumpulan data mtcars .

Berikut variabel prediktor yang akan kami gunakan di setiap model:

  • Variabel prediktor pada model 1: disp, hp, wt, qsec
  • Variabel prediktor pada model 2: disp, qsec
  • Variabel prediktor pada model 3: disp, wt

Kode berikut menunjukkan cara menyesuaikan masing-masing model regresi ini:

 #fit three models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

Selanjutnya, kita akan memasukkan model ke dalam daftar dan menggunakan fungsi aictab() untuk menghitung AIC setiap model:

 library (AICcmodavg)

#define list of models
models <- list(model1, model2, model3)

#specify model names
mod.names <- c('disp.hp.wt.qsec', 'disp.qsec', 'disp.wt')

#calculate AIC of each model
aictab(cand.set = models, modnames = mod.names)

Model selection based on AICc:

                K AICc Delta_AICc AICcWt Cum.Wt LL
disp.hp.wt.qsec 6 162.43 0.00 0.83 0.83 -73.53
available wt 4 165.65 3.22 0.17 1.00 -78.08
disp.qsec 4 173.32 10.89 0.00 1.00 -81.92

Berikut cara menafsirkan hasilnya:

  • K : Jumlah parameter dalam model.
  • AICc: nilai AIC model. Huruf kecil “c” menunjukkan bahwa AIC dihitung dari AIC yang dikoreksi untuk sampel kecil.
  • Delta_AICc: perbedaan antara AIC model terbaik dan model saat ini yang dibandingkan.
  • AICcWt: proporsi total daya prediksi yang dapat ditemukan dalam model.
  • Cum.Wt : Jumlah kumulatif bobot AIC.
  • LL: Kemungkinan log model. Hal ini memberi tahu kami seberapa besar kemungkinan model tersebut, berdasarkan data yang kami gunakan.

Model dengan nilai AIC terendah selalu dicantumkan terlebih dahulu. Dari hasil tersebut kita dapat melihat bahwa model berikut memiliki nilai AIC terendah dan oleh karena itu merupakan model yang paling sesuai:

mpg = β 0 + β 1 (tampilan) + β 2 (hp) + β 3 (berat) + β 4 (qsec)

Setelah kami mengidentifikasi model ini sebagai yang terbaik, kami dapat melanjutkan dengan penyesuaian model dan menganalisis hasilnya, termasuk nilai R-kuadrat dan koefisien beta, untuk menentukan hubungan yang tepat antara kumpulan variabel prediktif dan variabel respons .

Sumber daya tambahan

Cara melakukan regresi linier sederhana di R
Cara melakukan regresi linier berganda di R
Cara menghitung R-kuadrat yang disesuaikan di R
Cara menghitung Mallows Cp di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *