Binomial negatif vs poisson: cara memilih model regresi


Regresi binomial negatif dan regresi Poisson adalah dua jenis model regresi yang sebaiknya digunakan jika variabel respons diwakili oleh hasil penghitungan diskrit.

Berikut beberapa contoh variabel respon yang merepresentasikan hasil penghitungan diskrit:

  • Banyaknya mahasiswa yang lulus pada suatu program tertentu
  • Banyaknya kecelakaan lalu lintas pada suatu persimpangan tertentu
  • Jumlah peserta yang menyelesaikan maraton
  • Jumlah pengembalian pada bulan tertentu di toko ritel

Jika variansnya kira-kira sama dengan mean, maka model regresi Poisson umumnya cocok untuk kumpulan data.

Namun, jika variansnya jauh lebih besar daripada mean, model regresi binomial negatif umumnya mampu menyesuaikan data dengan lebih baik.

Ada dua teknik yang dapat kita gunakan untuk menentukan apakah regresi Poisson atau regresi binomial negatif lebih tepat untuk kumpulan data tertentu:

1. Plot sisa

Kita dapat membuat plot dari residu terstandar terhadap nilai prediksi dari model regresi.

Jika mayoritas residu terstandar antara -2 dan 2, model regresi Poisson mungkin tepat.

Namun, jika banyak residu berada di luar kisaran ini, model regresi binomial negatif kemungkinan besar akan lebih cocok.

2. Uji rasio kemungkinan

Kita dapat memasukkan model regresi Poisson dan model regresi binomial negatif ke kumpulan data yang sama dan kemudian melakukan uji rasio kemungkinan.

Jika nilai p dari pengujian tersebut berada di bawah tingkat signifikansi tertentu (misalnya 0,05), maka kita dapat menyimpulkan bahwa model regresi binomial negatif memberikan kesesuaian yang jauh lebih baik.

Contoh berikut menunjukkan cara menggunakan kedua teknik ini di R untuk menentukan apakah lebih baik menggunakan model regresi Poisson atau regresi binomial negatif untuk kumpulan data tertentu.

Contoh: regresi binomial negatif vs regresi Poisson

Misalkan kita ingin mengetahui berapa banyak beasiswa yang diterima pemain bisbol sekolah menengah atas di suatu daerah berdasarkan divisi sekolahnya (“A”, “B” atau “C”) dan nilai sekolahnya. ujian masuk universitas (diukur dari 0 hingga 100). ).

Gunakan langkah-langkah berikut untuk menentukan apakah model regresi binomial negatif atau model regresi Poisson lebih cocok dengan data.

Langkah 1: Buat datanya

Kode berikut membuat kumpulan data yang akan kita kerjakan, yang mencakup data 1.000 pemain bisbol:

 #make this example reproducible
set. seeds (1)

#create dataset
data <- data. frame (offers = c(rep(0, 700), rep(1, 100), rep(2, 100),
                              rep(3, 70), rep(4, 30)),
                   division = sample(c(' A ', ' B ', ' C '), 100, replace = TRUE ),
                   exam = c(runif(700, 60, 90), runif(100, 65, 95),
                            runif(200, 75, 95)))

#view first six rows of dataset
head(data)

  offers division exam
1 0 A 66.22635
2 0 C 66.85974
3 0 A 77.87136
4 0 B 77.24617
5 0 A 62.31193
6 0 C 61.06622

Langkah 2: Sesuaikan model regresi Poisson dan model regresi binomial negatif

Kode berikut menunjukkan cara menyesuaikan model regresi Poisson dan model regresi binomial negatif ke dalam data:

 #fit Poisson regression model
p_model <- glm(offers ~ division + exam, family = ' fish ', data = data)

#fit negative binomial regression model
library (MASS)

nb_model <- glm. nb (offers ~ division + exam, data = data)

Langkah 3: Buat Plot Sisa

Kode berikut menunjukkan cara membuat plot sisa untuk kedua model.

 #Residual plot for Poisson regression
p_res <- resid (p_model)
plot(fitted(p_model), p_res, col=' steelblue ', pch=16,
     xlab=' Predicted Offers ', ylab=' Standardized Residuals ', main=' Poisson ')
abline(0,0)

#Residual plot for negative binomial regression
nb_res <- resid (nb_model)
plot(fitted(nb_model), nb_res, col=' steelblue ', pch=16,
     xlab=' Predicted Offers ', ylab=' Standardized Residuals ', main=' Negative Binomial ')
abline(0,0) 

Regresi binomial negatif vs Poisson

Dari grafik, kita dapat melihat bahwa residu lebih tersebar untuk model regresi Poisson (perhatikan bahwa beberapa residu melampaui 3) dibandingkan dengan model regresi binomial negatif.

Ini merupakan tanda bahwa model regresi binomial negatif mungkin lebih tepat karena residu model ini lebih kecil.

Langkah 4: Lakukan uji rasio kemungkinan

Terakhir, kita dapat melakukan uji rasio kemungkinan untuk menentukan apakah terdapat perbedaan yang signifikan secara statistik dalam kesesuaian kedua model regresi:

 pchisq(2 * ( logLik (nb_model) - logLik (p_model)), df = 1, lower. tail = FALSE )

'log Lik.' 3.508072e-29 (df=5)

Nilai p dari tes tersebut ternyata adalah 3,508072e-29 , yang secara signifikan kurang dari 0,05.

Dengan demikian, kita dapat menyimpulkan bahwa model regresi binomial negatif memberikan kesesuaian yang jauh lebih baik terhadap data dibandingkan dengan model regresi Poisson.

Sumber daya tambahan

Pengenalan distribusi binomial negatif
Pengenalan distribusi Poisson

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *