Negatif binom vs poisson: regresyon modeli nasıl seçilir
Negatif binom regresyon ve Poisson regresyon, yanıt değişkeni ayrı sayım sonuçlarıyla temsil edildiğinde kullanılması gereken iki tür regresyon modelidir.
Ayrık sayım sonuçlarını temsil eden yanıt değişkenlerinin bazı örnekleri aşağıda verilmiştir:
- Belirli bir programdan mezun olan öğrenci sayısı
- Belirli bir kavşaktaki trafik kazası sayısı
- Maratonu tamamlayan katılımcı sayısı
- Belirli bir ayda bir perakende mağazasındaki iadelerin sayısı
Varyans yaklaşık olarak ortalamaya eşitse, Poisson regresyon modeli genellikle veri setine iyi uyum sağlar.
Bununla birlikte, varyansın ortalamadan önemli ölçüde büyük olması durumunda, negatif binom regresyon modeli genellikle verilere daha iyi uyum sağlayabilir.
Belirli bir veri seti için Poisson regresyonunun mu yoksa negatif binom regresyonunun mu daha uygun olduğunu belirlemek için kullanabileceğimiz iki teknik vardır:
1. Artık araziler
Bir regresyon modelinden tahmin edilen değerlere karşı standartlaştırılmış artıkların bir grafiğini oluşturabiliriz.
Standartlaştırılmış artıkların çoğunluğu -2 ile 2 arasındaysa Poisson regresyon modeli muhtemelen uygundur.
Bununla birlikte, eğer birçok artık bu aralığın dışında kalıyorsa, negatif binom regresyon modeli muhtemelen daha iyi bir uyum sağlayacaktır.
2. Olasılık oranı testi
Aynı veri setine bir Poisson regresyon modeli ve bir negatif binom regresyon modeli yerleştirebilir ve ardından bir olabilirlik oranı testi gerçekleştirebiliriz.
Testin p değeri belirli bir anlamlılık düzeyinin (örneğin 0,05) altındaysa, negatif binom regresyon modelinin anlamlı derecede daha iyi bir uyum sağladığı sonucuna varabiliriz.
Aşağıdaki örnek, belirli bir veri kümesi için Poisson regresyon modelinin mi yoksa negatif binom regresyon modelinin mi kullanılmasının daha iyi olduğunu belirlemek için R’de bu iki tekniğin nasıl kullanılacağını gösterir.
Örnek: Negatif binom regresyon ve Poisson regresyon
Belirli bir ilçedeki bir lise beyzbol oyuncusunun okul bölümüne (“A”, “B” veya “C”) ve okul notuna bağlı olarak kaç burs aldığını bilmek istediğimizi varsayalım. üniversiteye giriş sınavı (0 ile 100 arasında ölçülür). ).
Negatif binom regresyon modelinin mi yoksa Poisson regresyon modelinin mi verilere daha iyi uyum sağladığını belirlemek için aşağıdaki adımları kullanın.
1. Adım: Verileri oluşturun
Aşağıdaki kod, üzerinde çalışacağımız ve 1000 beyzbol oyuncusuna ilişkin verileri içeren veri kümesini oluşturur:
#make this example reproducible set. seeds (1) #create dataset data <- data. frame (offers = c(rep(0, 700), rep(1, 100), rep(2, 100), rep(3, 70), rep(4, 30)), division = sample(c(' A ', ' B ', ' C '), 100, replace = TRUE ), exam = c(runif(700, 60, 90), runif(100, 65, 95), runif(200, 75, 95))) #view first six rows of dataset head(data) offers division exam 1 0 A 66.22635 2 0 C 66.85974 3 0 A 77.87136 4 0 B 77.24617 5 0 A 62.31193 6 0 C 61.06622
Adım 2: Poisson regresyon modelini ve negatif binom regresyon modelini yerleştirin
Aşağıdaki kod, hem Poisson regresyon modelinin hem de negatif binom regresyon modelinin verilere nasıl sığdırılacağını gösterir:
#fit Poisson regression model p_model <- glm(offers ~ division + exam, family = ' fish ', data = data) #fit negative binomial regression model library (MASS) nb_model <- glm. nb (offers ~ division + exam, data = data)
Adım 3: Artık Grafikler Oluşturun
Aşağıdaki kod, her iki model için de artık grafiklerin nasıl oluşturulacağını gösterir.
#Residual plot for Poisson regression p_res <- resid (p_model) plot(fitted(p_model), p_res, col=' steelblue ', pch=16, xlab=' Predicted Offers ', ylab=' Standardized Residuals ', main=' Poisson ') abline(0,0) #Residual plot for negative binomial regression nb_res <- resid (nb_model) plot(fitted(nb_model), nb_res, col=' steelblue ', pch=16, xlab=' Predicted Offers ', ylab=' Standardized Residuals ', main=' Negative Binomial ') abline(0,0)
Grafiklerden, negatif binom regresyon modeline kıyasla Poisson regresyon modelinde artıkların daha fazla yayıldığını görebiliriz (bazı artıkların 3’ün üzerine çıktığını unutmayın).
Bu, negatif binom regresyon modelinin artıklarının daha küçük olması nedeniyle muhtemelen daha uygun olduğunun bir işaretidir.
4. Adım: Olabilirlik oranı testi yapın
Son olarak, iki regresyon modelinin uyumunda istatistiksel olarak anlamlı bir fark olup olmadığını belirlemek için bir olabilirlik oranı testi yapabiliriz:
pchisq(2 * ( logLik (nb_model) - logLik (p_model)), df = 1, lower. tail = FALSE ) 'log Lik.' 3.508072e-29 (df=5)
Testin p değeri 3,508072e-29 olarak ortaya çıkıyor ve bu da 0,05’ten önemli ölçüde düşük.
Dolayısıyla, negatif binom regresyon modelinin Poisson regresyon modeline kıyasla verilere önemli ölçüde daha iyi uyum sağladığı sonucuna varabiliriz.