Negatif binom vs poisson: regresyon modeli nasıl seçilir


Negatif binom regresyon ve Poisson regresyon, yanıt değişkeni ayrı sayım sonuçlarıyla temsil edildiğinde kullanılması gereken iki tür regresyon modelidir.

Ayrık sayım sonuçlarını temsil eden yanıt değişkenlerinin bazı örnekleri aşağıda verilmiştir:

  • Belirli bir programdan mezun olan öğrenci sayısı
  • Belirli bir kavşaktaki trafik kazası sayısı
  • Maratonu tamamlayan katılımcı sayısı
  • Belirli bir ayda bir perakende mağazasındaki iadelerin sayısı

Varyans yaklaşık olarak ortalamaya eşitse, Poisson regresyon modeli genellikle veri setine iyi uyum sağlar.

Bununla birlikte, varyansın ortalamadan önemli ölçüde büyük olması durumunda, negatif binom regresyon modeli genellikle verilere daha iyi uyum sağlayabilir.

Belirli bir veri seti için Poisson regresyonunun mu yoksa negatif binom regresyonunun mu daha uygun olduğunu belirlemek için kullanabileceğimiz iki teknik vardır:

1. Artık araziler

Bir regresyon modelinden tahmin edilen değerlere karşı standartlaştırılmış artıkların bir grafiğini oluşturabiliriz.

Standartlaştırılmış artıkların çoğunluğu -2 ile 2 arasındaysa Poisson regresyon modeli muhtemelen uygundur.

Bununla birlikte, eğer birçok artık bu aralığın dışında kalıyorsa, negatif binom regresyon modeli muhtemelen daha iyi bir uyum sağlayacaktır.

2. Olasılık oranı testi

Aynı veri setine bir Poisson regresyon modeli ve bir negatif binom regresyon modeli yerleştirebilir ve ardından bir olabilirlik oranı testi gerçekleştirebiliriz.

Testin p değeri belirli bir anlamlılık düzeyinin (örneğin 0,05) altındaysa, negatif binom regresyon modelinin anlamlı derecede daha iyi bir uyum sağladığı sonucuna varabiliriz.

Aşağıdaki örnek, belirli bir veri kümesi için Poisson regresyon modelinin mi yoksa negatif binom regresyon modelinin mi kullanılmasının daha iyi olduğunu belirlemek için R’de bu iki tekniğin nasıl kullanılacağını gösterir.

Örnek: Negatif binom regresyon ve Poisson regresyon

Belirli bir ilçedeki bir lise beyzbol oyuncusunun okul bölümüne (“A”, “B” veya “C”) ve okul notuna bağlı olarak kaç burs aldığını bilmek istediğimizi varsayalım. üniversiteye giriş sınavı (0 ile 100 arasında ölçülür). ).

Negatif binom regresyon modelinin mi yoksa Poisson regresyon modelinin mi verilere daha iyi uyum sağladığını belirlemek için aşağıdaki adımları kullanın.

1. Adım: Verileri oluşturun

Aşağıdaki kod, üzerinde çalışacağımız ve 1000 beyzbol oyuncusuna ilişkin verileri içeren veri kümesini oluşturur:

 #make this example reproducible
set. seeds (1)

#create dataset
data <- data. frame (offers = c(rep(0, 700), rep(1, 100), rep(2, 100),
                              rep(3, 70), rep(4, 30)),
                   division = sample(c(' A ', ' B ', ' C '), 100, replace = TRUE ),
                   exam = c(runif(700, 60, 90), runif(100, 65, 95),
                            runif(200, 75, 95)))

#view first six rows of dataset
head(data)

  offers division exam
1 0 A 66.22635
2 0 C 66.85974
3 0 A 77.87136
4 0 B 77.24617
5 0 A 62.31193
6 0 C 61.06622

Adım 2: Poisson regresyon modelini ve negatif binom regresyon modelini yerleştirin

Aşağıdaki kod, hem Poisson regresyon modelinin hem de negatif binom regresyon modelinin verilere nasıl sığdırılacağını gösterir:

 #fit Poisson regression model
p_model <- glm(offers ~ division + exam, family = ' fish ', data = data)

#fit negative binomial regression model
library (MASS)

nb_model <- glm. nb (offers ~ division + exam, data = data)

Adım 3: Artık Grafikler Oluşturun

Aşağıdaki kod, her iki model için de artık grafiklerin nasıl oluşturulacağını gösterir.

 #Residual plot for Poisson regression
p_res <- resid (p_model)
plot(fitted(p_model), p_res, col=' steelblue ', pch=16,
     xlab=' Predicted Offers ', ylab=' Standardized Residuals ', main=' Poisson ')
abline(0,0)

#Residual plot for negative binomial regression
nb_res <- resid (nb_model)
plot(fitted(nb_model), nb_res, col=' steelblue ', pch=16,
     xlab=' Predicted Offers ', ylab=' Standardized Residuals ', main=' Negative Binomial ')
abline(0,0) 

Negatif binom ve Poisson regresyonu

Grafiklerden, negatif binom regresyon modeline kıyasla Poisson regresyon modelinde artıkların daha fazla yayıldığını görebiliriz (bazı artıkların 3’ün üzerine çıktığını unutmayın).

Bu, negatif binom regresyon modelinin artıklarının daha küçük olması nedeniyle muhtemelen daha uygun olduğunun bir işaretidir.

4. Adım: Olabilirlik oranı testi yapın

Son olarak, iki regresyon modelinin uyumunda istatistiksel olarak anlamlı bir fark olup olmadığını belirlemek için bir olabilirlik oranı testi yapabiliriz:

 pchisq(2 * ( logLik (nb_model) - logLik (p_model)), df = 1, lower. tail = FALSE )

'log Lik.' 3.508072e-29 (df=5)

Testin p değeri 3,508072e-29 olarak ortaya çıkıyor ve bu da 0,05’ten önemli ölçüde düşük.

Dolayısıyla, negatif binom regresyon modelinin Poisson regresyon modeline kıyasla verilere önemli ölçüde daha iyi uyum sağladığı sonucuna varabiliriz.

Ek kaynaklar

Negatif binom dağılımına giriş
Poisson dağılımına giriş

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir