गणना डेटा के लिए पॉइसन प्रतिगमन का एक सौम्य परिचय

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 29, 2023 मार्गदर्शक शून्य टिप्पणियां

प्रतिगमन एक सांख्यिकीय पद्धति है जिसका उपयोग एक या अधिक भविष्यवक्ता चर और एक प्रतिक्रिया चर के बीच संबंध निर्धारित करने के लिए किया जा सकता है।

पॉइसन प्रतिगमन एक विशेष प्रकार का प्रतिगमन है जिसमें प्रतिक्रिया चर “गणना डेटा” होता है। निम्नलिखित उदाहरण उन मामलों को दर्शाते हैं जहां पॉइसन प्रतिगमन का उपयोग किया जा सकता है:

उदाहरण 1: पॉइसन रिग्रेशन का उपयोग किसी विशिष्ट कॉलेज कार्यक्रम से स्नातक करने वाले छात्रों की संख्या की जांच करने के लिए किया जा सकता है, जो उनके जीपीए के आधार पर कार्यक्रम में प्रवेश करते समय और उनके लिंग पर आधारित होता है। इस मामले में, “स्नातक होने वाले छात्रों की संख्या” प्रतिक्रिया चर है, “प्रोग्राम प्रविष्टि पर जीपीए” एक सतत भविष्यवक्ता चर है, और “लिंग” एक श्रेणीबद्ध भविष्यवक्ता चर है।

उदाहरण 2: पॉइसन प्रतिगमन का उपयोग मौसम की स्थिति (“धूप”, “बादल”, “बरसात”) के आधार पर किसी विशेष चौराहे पर यातायात दुर्घटनाओं की संख्या की जांच करने के लिए किया जा सकता है और क्या शहर में कोई विशेष घटना होती है या नहीं (“हां”) या नहीं”)। इस मामले में, “सड़क दुर्घटनाओं की संख्या” प्रतिक्रिया चर है, जबकि “मौसम की स्थिति” और “विशेष घटना” दोनों स्पष्ट भविष्यवक्ता चर हैं।

उदाहरण 3: पॉइसन रिग्रेशन का उपयोग दिन के समय, सप्ताह के दिन और बिक्री हो रही है या नहीं (“हां या नहीं) के आधार पर किसी स्टोर पर लाइन में आपके सामने मौजूद लोगों की संख्या की जांच करने के लिए किया जा सकता है। . “). इस मामले में, “लाइन में आपके सामने लोगों की संख्या” प्रतिक्रिया चर है, “दिन का समय” और “सप्ताह का दिन” दोनों निरंतर भविष्यवक्ता चर हैं, और “बिक्री प्रगति पर है” एक श्रेणीगत भविष्यवक्ता चर है।

उदाहरण 4: पॉइसन रिग्रेशन का उपयोग मौसम की स्थिति (“धूप”, “बादल”, “बरसात”) और पाठ्यक्रम कठिनाई (“आसान”, “बरसात”) के आधार पर ट्रायथलॉन पूरा करने वाले लोगों की संख्या की जांच करने के लिए किया जा सकता है। मध्यम”, “कठिन”)। इस मामले में, “समापन करने वाले लोगों की संख्या” प्रतिक्रिया चर है, जबकि “मौसम की स्थिति” और “पाठ्यक्रम कठिनाई” दोनों श्रेणीबद्ध भविष्यवक्ता चर हैं।

पॉइसन रिग्रेशन करने से आप यह देख पाएंगे कि कौन से भविष्यवक्ता चर (यदि कोई हो) का प्रतिक्रिया चर पर सांख्यिकीय रूप से महत्वपूर्ण प्रभाव पड़ता है।

निरंतर भविष्यवक्ता चर के लिए, आप यह व्याख्या करने में सक्षम होंगे कि उस चर में एक-इकाई वृद्धि या कमी प्रतिक्रिया चर की संख्याओं में प्रतिशत परिवर्तन के साथ कैसे जुड़ी हुई है (उदाहरण के लिए, “जीपीए में प्रत्येक एक-इकाई वृद्धि अतिरिक्त बिंदु के साथ जुड़ी हुई है) प्रतिक्रिया चर में 12.5% की वृद्धि)।

श्रेणीबद्ध भविष्यवक्ता चर के लिए, आप दूसरे समूह की तुलना में एक समूह की गिनती में प्रतिशत परिवर्तन की व्याख्या करने में सक्षम होंगे (उदाहरण के लिए, धूप वाले दिन ट्रायथलॉन पूरा करने वाले लोगों की संख्या) (उदाहरण के लिए, एक पूरा करने वाले लोगों की संख्या) बरसात के मौसम में ट्रायथलॉन)।

पॉइसन प्रतिगमन की मान्यताएँ

इससे पहले कि हम पॉइसन प्रतिगमन कर सकें, हमें यह सुनिश्चित करना होगा कि निम्नलिखित धारणाएँ पूरी हों ताकि हमारे पॉइसन प्रतिगमन परिणाम मान्य हों:

धारणा 1: प्रतिक्रिया चर गणना डेटा है। पारंपरिक रैखिक प्रतिगमन में, प्रतिक्रिया चर निरंतर डेटा है। हालाँकि, पॉइसन प्रतिगमन का उपयोग करने के लिए, हमारे प्रतिक्रिया चर में 0 या अधिक के पूर्णांक (जैसे 0, 1, 2, 14, 34, 49, 200, आदि) सहित गिनती डेटा शामिल होना चाहिए। हमारे प्रतिक्रिया चर में नकारात्मक मान नहीं हो सकते।

परिकल्पना 2: अवलोकन स्वतंत्र हैं। डेटासेट में प्रत्येक अवलोकन एक दूसरे से स्वतंत्र होना चाहिए। इसका मतलब यह है कि एक अवलोकन दूसरे अवलोकन के बारे में जानकारी प्रदान करने में सक्षम नहीं होना चाहिए।

परिकल्पना 3: खातों का वितरण पॉइसन वितरण का अनुसरण करता है। परिणामस्वरूप, देखी गई और अपेक्षित गणना समान होनी चाहिए। इसका परीक्षण करने का एक सरल तरीका यह है कि अपेक्षित और देखी गई गणनाओं को आलेखित किया जाए और देखा जाए कि क्या वे समान हैं।

धारणा 4: मॉडल का माध्य और विचरण बराबर हैं। यह इस धारणा से उत्पन्न होता है कि गिनती का वितरण पॉइसन वितरण का अनुसरण करता है। पॉइसन वितरण के लिए, विचरण का मान माध्य के समान होता है। यदि यह धारणा संतुष्ट है, तो आपके पास समान फैलाव है। हालाँकि, इस धारणा का अक्सर उल्लंघन किया जाता है क्योंकि अत्यधिक फैलाव एक आम समस्या है।

उदाहरण: आर में पॉइसन प्रतिगमन

अब हम एक उदाहरण की समीक्षा करेंगे कि आर में पॉइसन रिग्रेशन कैसे करें।

पृष्ठभूमि

मान लीजिए कि हम जानना चाहते हैं कि किसी काउंटी में एक हाई स्कूल बेसबॉल खिलाड़ी को उसके स्कूल डिवीजन (“ए”, “बी” या “सी”) और उसके स्कूल ग्रेड के आधार पर कितनी छात्रवृत्तियां मिलती हैं। विश्वविद्यालय प्रवेश परीक्षा (0 से 100 तक मापी गई)। ).

निम्नलिखित कोड वह डेटासेट बनाता है जिसके साथ हम काम करेंगे, जिसमें 100 बेसबॉल खिलाड़ियों का डेटा शामिल है:

 #make this example reproducible
set.seed(1)

#create dataset
data <- data.frame(offers = c(rep(0, 50), rep(1, 30), rep(2, 10), rep(3, 7), rep(4, 3)),
                   division = sample(c("A", "B", "C"), 100, replace = TRUE),
                   exam = c(runif(50, 60, 80), runif(30, 65, 95), runif(20, 75, 95)))

डेटा को समझना

वास्तव में इस डेटासेट में पॉइसन रिग्रेशन मॉडल को फिट करने से पहले, हम डेटासेट की पहली कुछ पंक्तियों को विज़ुअलाइज़ करके और सारांश आँकड़े चलाने के लिए dplyr लाइब्रेरी का उपयोग करके डेटा को बेहतर ढंग से समझ सकते हैं:

 #view dimensions of dataset
dim(data)

#[1] 100 3

#view first six lines of dataset
head(data)

# offers division exam
#1 0 A 73.09448
#2 0 B 67.06395
#3 0 B 65.40520
#4 0 C 79.85368
#5 0 A 72.66987
#6 0 C 64.26416

#view summary of each variable in dataset
summary(data)

# offers division exam      
# Min. :0.00 To:27 Min. :60.26  
# 1st Qu.:0.00 B:38 1st Qu.:69.86  
# Median: 0.50 C:35 Median: 75.08  
# Mean:0.83 Mean:76.43  
# 3rd Qu.:1.00 3rd Qu.:82.87  
# Max. :4.00 Max. :93.87  

#view mean exam score by number of offers
library(dplyr)
data %>%
  group_by (offers) %>%
  summarize (mean_exam = mean(exam))

# A tibble: 5 x 2
# offers mean_exam
#        
#1 0 70.0
#2 1 80.8
#3 2 86.8
#4 3 83.9
#5 4 87.9

उपरोक्त परिणाम से, हम निम्नलिखित देख सकते हैं:

डेटासेट में 100 पंक्तियाँ और 3 कॉलम हैं
एक खिलाड़ी को प्राप्त प्रस्तावों की न्यूनतम संख्या शून्य थी, अधिकतम चार थी, और औसत 0.83 था।
इस डेटासेट में, “ए” डिवीजन से 27 खिलाड़ी, “बी” डिवीजन से 38 खिलाड़ी और “सी” डिवीजन से 35 खिलाड़ी हैं।
न्यूनतम परीक्षा स्कोर 60.26 था, अधिकतम स्कोर 93.87 था, और औसत 76.43 था।
सामान्य तौर पर, जिन खिलाड़ियों को अधिक छात्रवृत्ति प्रस्ताव प्राप्त हुए, उनके परीक्षा अंक अधिक होते हैं (उदाहरण के लिए, जिन खिलाड़ियों को कोई प्रस्ताव नहीं मिला उनका औसत परीक्षा स्कोर 70.0 था और जिन खिलाड़ियों को 4 प्रस्ताव प्राप्त हुए उनका औसत समीक्षा स्कोर 87.9 था)।

हम विभाजन के आधार पर खिलाड़ियों द्वारा प्राप्त प्रस्तावों की संख्या को देखने के लिए एक हिस्टोग्राम भी बना सकते हैं:

 #load ggplot2 package
library(ggplot2)

#create histogram
ggplot(data, aes(offers, fill = division)) +
  geom_histogram(binwidth=.5, position="dodge")

हम देख सकते हैं कि अधिकांश खिलाड़ियों को कोई प्रस्ताव नहीं मिला या केवल एक ही प्रस्ताव मिला। यह उन डेटा सेटों के लिए विशिष्ट है जो पॉइसन वितरण का पालन करते हैं: प्रतिक्रिया मूल्यों का एक अच्छा हिस्सा शून्य है।

पॉइसन प्रतिगमन मॉडल को फिट करना

इसके बाद, हम glm() फ़ंक्शन का उपयोग करके मॉडल को समायोजित कर सकते हैं और निर्दिष्ट कर सकते हैं कि हम मॉडल के लिए परिवार = “मछली” का उपयोग करना चाहते हैं:

 #fit the model
model <- glm(offers ~ division + exam, family = "fish" , data = data)

#view model output
summary(model)

#Call:
#glm(formula = offers ~ division + exam, family = "fish", data = data)
#
#Deviance Residuals: 
# Min 1Q Median 3Q Max  
#-1.2562 -0.8467 -0.5657 0.3846 2.5033  
#
#Coefficients:
#Estimate Std. Error z value Pr(>|z|)    
#(Intercept) -7.90602 1.13597 -6.960 3.41e-12 ***
#divisionB 0.17566 0.27257 0.644 0.519    
#divisionC -0.05251 0.27819 -0.189 0.850    
#exam 0.09548 0.01322 7.221 5.15e-13 ***
#---
#Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#
#(Dispersion parameter for fish family taken to be 1)
#
# Null deviance: 138,069 on 99 degrees of freedom
#Residual deviance: 79,247 on 96 degrees of freedom
#AIC: 204.12
#
#Number of Fisher Scoring iterations: 5

परिणाम से हम निम्नलिखित देख सकते हैं:

पॉइसन प्रतिगमन गुणांक, अनुमानों की मानक त्रुटि, जेड-स्कोर और संबंधित पी-मान सभी प्रदान किए गए हैं।
समीक्षा गुणांक 0.09548 है, जो इंगित करता है कि समीक्षा में एक-इकाई वृद्धि के लिए प्रस्तावों की संख्या के लिए अपेक्षित लॉग संख्या 0.09548 है। इसकी व्याख्या करने का एक सरल तरीका घातांकीय मान लेना है, अर्थात e ^0.09548 = 1.10 । इसका मतलब यह है कि प्रवेश परीक्षा में अर्जित प्रत्येक अतिरिक्त अंक के लिए प्राप्त प्रस्तावों की संख्या में 10% की वृद्धि हुई है।
डिवीजन बी के लिए गुणांक 0.1756 है, जो इंगित करता है कि डिवीजन बी में एक खिलाड़ी के लिए प्रस्तावों की अपेक्षित संख्या डिवीजन ए में एक खिलाड़ी की तुलना में 0.1756 अधिक है। इसकी व्याख्या करने का एक सरल तरीका घातांक मान लेना है, यानी ई ^0.1756 = 1.19 . इसका मतलब यह है कि डिवीजन बी के खिलाड़ियों को डिवीजन ए के खिलाड़ियों की तुलना में 19% अधिक ऑफर मिलते हैं। ध्यान दें कि यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है (पी = 0.519)।
डिवीजन सी के लिए गुणांक -0.05251 है, जो इंगित करता है कि डिवीजन सी में एक खिलाड़ी के लिए ऑफ़र की संख्या के लिए अपेक्षित लॉग संख्या डिवीजन ए में एक खिलाड़ी की तुलना में 0.05251 कम है। इसकी व्याख्या करने का एक सरल तरीका घातांक मान लेना है , यानी ई ^0.05251 = 0.94 है। इसका मतलब यह है कि डिवीजन सी के खिलाड़ियों को डिवीजन ए के खिलाड़ियों की तुलना में 6% कम ऑफर मिलते हैं। ध्यान दें कि यह अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है (पी = 850)।

मॉडल विचलन पर जानकारी भी प्रदान की गई है। हम विशेष रूप से अवशिष्ट विचलन में रुचि रखते हैं, जिसका मूल्य स्वतंत्रता की 96 डिग्री में से 79,247 है। इन नंबरों का उपयोग करके, हम यह देखने के लिए एक ची-स्क्वायर गुडनेस-ऑफ-फिट परीक्षण कर सकते हैं कि मॉडल डेटा में फिट बैठता है या नहीं। निम्नलिखित कोड बताता है कि यह परीक्षण कैसे करें:

 pchisq(79.24679, 96, lower.tail = FALSE)

#[1] 0.8922676

इस परीक्षण के लिए पी-वैल्यू 0.89 है, जो 0.05 महत्व स्तर से काफी ऊपर है। हम यह निष्कर्ष निकाल सकते हैं कि डेटा मॉडल पर काफी हद तक फिट बैठता है।

परिणाम दर्शन

हम एक चार्ट भी बना सकते हैं जो निम्नलिखित कोड का उपयोग करके डिवीजन और प्रवेश परीक्षा परिणामों के आधार पर प्राप्त छात्रवृत्ति प्रस्तावों की अपेक्षित संख्या दिखाता है:

 #find predicted number of offers using the fitted Poisson regression model
data$phat <- predict(model, type="response")

#create plot that shows number of offers based on division and exam score
ggplot(data, aes(x = exam, y = phat, color = division)) +
  geom_point(aes(y = offers), alpha = .7, position = position_jitter(h = .2)) +
  geom_line() +
  labs(x = "Entrance Exam Score", y = "Expected number of scholarship offers")

चार्ट प्रवेश परीक्षा में उच्च अंक प्राप्त करने वाले खिलाड़ियों के लिए अपेक्षित छात्रवृत्ति प्रस्तावों की उच्चतम संख्या को दर्शाता है। इसके अतिरिक्त, हम देख सकते हैं कि डिवीजन बी (हरी रेखा) के खिलाड़ियों को डिवीजन ए या डिवीजन सी के खिलाड़ियों की तुलना में सामान्य रूप से अधिक ऑफर प्राप्त होने चाहिए।

परिणाम रिपोर्ट करें

अंत में, हम प्रतिगमन परिणामों को इस तरह से रिपोर्ट कर सकते हैं जो हमारे निष्कर्षों को सारांशित करता है:

संभागीय और प्रवेश परीक्षा के अंकों के आधार पर बेसबॉल खिलाड़ियों द्वारा प्राप्त छात्रवृत्ति प्रस्तावों की संख्या की भविष्यवाणी करने के लिए एक पॉइसन प्रतिगमन चलाया गया था। प्रवेश परीक्षा में अर्जित प्रत्येक अतिरिक्त अंक के लिए, प्राप्त प्रस्तावों की संख्या 10% बढ़ जाती है ( पी <0.0001) । विभाजन को सांख्यिकीय रूप से महत्वपूर्ण नहीं पाया गया।

अतिरिक्त संसाधन

सरल रेखीय प्रतिगमन का परिचय
एकाधिक रेखीय प्रतिगमन का परिचय
बहुपद प्रतिगमन का एक परिचय

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने