ရေတွက်ခြင်းဒေတာအတွက် poisson ဆုတ်ယုတ်မှုဆိုင်ရာ နူးညံ့သိမ်မွေ့သော နိဒါန်း

အားဖြင့် Benjamin Anderson ဇူလိုင် 29, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

Regression သည် တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော ကြိုတင်ခန့်မှန်းကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင် ကြား ဆက်နွယ်မှုကို ဆုံးဖြတ်ရန် အသုံးပြုနိုင်သည့် ကိန်းဂဏန်းနည်းလမ်းတစ်ခုဖြစ်သည်။

Poisson regression သည် တုံ့ပြန်မှု variable မှာ “ count data” ဖြစ်သည့် အထူးဆုတ်ယုတ်မှုအမျိုးအစားတစ်ခုဖြစ်သည်။ အောက်ဖော်ပြပါ ဥပမာများသည် Poisson ဆုတ်ယုတ်မှုကို အသုံးပြုနိုင်သည့် ကိစ္စရပ်များကို သရုပ်ဖော်သည်-

ဥပမာ 1- Poisson ဆုတ်ယုတ်မှုအား ၎င်းတို့၏ GPA ပေါ်မူတည်၍ ကောလိပ်ပရိုဂရမ်တစ်ခုမှ ဘွဲ့ရသော ကျောင်းသားအရေအတွက်နှင့် ၎င်းတို့၏ လိင်ကွဲပြားမှုကို ဆန်းစစ်ရန် အသုံးပြုနိုင်သည်။ ဤကိစ္စတွင်၊ “ ဘွဲ့ရကျောင်းသားအရေအတွက်” သည် တုံ့ပြန်မှုမပြောင်းလဲနိုင်သော၊ “ ပရိုဂရမ်ဝင်ခွင့်တွင် GPA” သည် စဉ်ဆက်မပြတ်ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်ဖြစ်ပြီး “ ကျားမ” သည် အမျိုးအစားခွဲသောခန့်မှန်းကိန်းဂဏန်းတစ်ခုဖြစ်သည်။

ဥပမာ 2- Poisson ဆုတ်ယုတ်မှုကို ရာသီဥတုအခြေအနေများပေါ်မူတည်၍ သီးခြားလမ်းဆုံတစ်ခုတွင် ယာဉ်မတော်တဆမှုအရေအတွက် (“နေသာ”၊ “တိမ်ထူသော”၊ “မိုးရွာသည်”) နှင့် မြို့တွင်း၌ အထူးဖြစ်ရပ်တစ်ခု ဖြစ်ပွားသည်ဖြစ်စေ မရှိ (“ဟုတ်ကဲ့၊ သို့မဟုတ် မဟုတ်ဘူး” )။ ဤကိစ္စတွင်၊ “ လမ်းမတော်တဆမှုအရေအတွက်” သည် တုံ့ပြန်မှုပြောင်းလဲနိုင်သော်လည်း “ ရာသီဥတုအခြေအနေ” နှင့် “ အထူးဖြစ်ရပ်” နှစ်ခုစလုံးသည် အမျိုးအစားအလိုက် ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်များဖြစ်သည်။

ဥပမာ 3- Poisson ဆုတ်ယုတ်မှုအား တစ်နေ့တာ၏အချိန်၊ တစ်ပတ်၏နေ့ရက်အလိုက် စတိုးဆိုင်တစ်ခုတွင် သင့်ရှေ့တွင်တန်းစီနေသောလူအရေအတွက်ကို စစ်ဆေးရန်နှင့် အရောင်းတစ်ခုဖြစ်ပွားနေသည်ဖြစ်စေ မပြုလုပ်သည်ဖြစ်စေ (“ ဟုတ်သည်ဖြစ်စေ၊ မဟုတ်သည်) ကိုစစ်ဆေးရန် အသုံးပြုနိုင်သည်။ .” ) ။ ဤကိစ္စတွင်၊ “ သင့်ရှေ့တွင်ရှိသောလူအရေအတွက်” သည် တုံ့ပြန်မှုပြောင်းလဲနိုင်သော၊ “ ရက်၏အချိန်” နှင့် “ ရက်သတ္တပတ်၏နေ့” နှစ်ခုလုံးသည် စဉ်ဆက်မပြတ်ခန့်မှန်းနိုင်သောကိန်းရှင်များဖြစ်ပြီး “ ရောင်းချမှုလုပ်ဆောင်နေသည်” သည် အမျိုးအစားခွဲသောခန့်မှန်းကိန်းရှင်တစ်ခုဖြစ်သည်။

ဥပမာ 4- Poisson ဆုတ်ယုတ်မှုကို ရာသီဥတုအခြေအနေများ (“နေသာ”၊ “တိမ်ထူသော”၊ “မိုးရွာသော”) နှင့် သင်တန်းအခက်အခဲ (“လွယ်ကူသော”၊ “မိုးရွာသော”) တို့ကို အခြေခံ၍ triathlon ပြီးမြောက်သူအရေအတွက်ကို ဆန်းစစ်ရန် အသုံးပြုနိုင်သည်။ အလယ်အလတ်” ၊ “ ခက်ခဲ” )။ ဤကိစ္စတွင်၊ “ ပြီးမြောက်သောလူအရေအတွက်” သည် တုံ့ပြန်မှုပြောင်းလွဲနိုင်ပြီး “ ရာသီဥတုအခြေအနေ” နှင့် “ သင်တန်းအခက်အခဲ” နှစ်ခုစလုံးသည် အမျိုးအစားအလိုက် ခန့်မှန်းနိုင်သောကိန်းရှင်များဖြစ်သည်။

Poisson ဆုတ်ယုတ်မှုအား လုပ်ဆောင်ခြင်းဖြင့် မည်သည့်ခန့်မှန်းကိန်းရှင်များ (ရှိပါက) တုံ့ပြန်မှုကိန်းရှင်အပေါ် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော အကျိုးသက်ရောက်မှုရှိသည်ကို တွေ့မြင်နိုင်မည်ဖြစ်သည်။

စဉ်ဆက်မပြတ် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များအတွက်၊ အဆိုပါ variable တွင် တစ်ယူနစ်တိုးခြင်း သို့မဟုတ် လျော့ခြင်းသည် တုံ့ပြန်မှုကိန်းရှင်၏ နံပါတ်များအတွင်း ရာခိုင်နှုန်းပြောင်းလဲမှုနှင့် ဆက်စပ်နေပုံကို အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်ပါမည်။ တုံ့ပြန်မှု variable တွင် 12.5% တိုးလာသည်)။

အမျိုးအစားအလိုက် ခန့်မှန်းနိုင်သော ကိန်းရှင်များအတွက်၊ အုပ်စုတစ်စု၏ ရေတွက်မှု ရာခိုင်နှုန်းပြောင်းလဲမှု (ဥပမာ၊ နေသာသောနေ့တွင် ထရီအားကစားပြိုင်ပွဲကို ပြီးမြောက်သူအရေအတွက်)၊ အခြားအုပ်စုနှင့် နှိုင်းယှဉ်ပါက (ဥပမာ၊ ပြီးမြောက်သူအရေအတွက်၊ မိုးရာသီတွင် triathlon ။

Poisson ဆုတ်ယုတ်မှု၏ ယူဆချက်များ

Poisson ဆုတ်ယုတ်မှုအား ကျွန်ုပ်တို့မလုပ်ဆောင်မီ၊ ကျွန်ုပ်တို့၏ Poisson ဆုတ်ယုတ်မှုရလဒ်များ မှန်ကန်စေရန် အောက်ပါယူဆချက်များနှင့် ကိုက်ညီကြောင်း သေချာစေရပါမည်။

ယူဆချက် 1- တုံ့ပြန်မှုကိန်းရှင်သည် ရေတွက်သည့်ဒေတာဖြစ်သည်။ သမားရိုးကျ linear regression တွင် တုံ့ပြန်မှု variable သည် စဉ်ဆက်မပြတ် ဒေတာဖြစ်သည်။ သို့သော်လည်း Poisson ဆုတ်ယုတ်မှုကို အသုံးပြုရန်အတွက်၊ ကျွန်ုပ်တို့၏ တုံ့ပြန်မှုကိန်းရှင်သည် ကိန်းပြည့် 0 သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းပြည့်များအပါအဝင် ရေတွက်ဒေတာ (ဥပမာ 0၊ 1၊ 2၊ 14၊ 34၊ 49၊ 200 စသည်ဖြင့်)။ ကျွန်ုပ်တို့၏ တုံ့ပြန်မှုကိန်းရှင်သည် အနုတ်လက္ခဏာတန်ဖိုးများ မပါဝင်နိုင်ပါ။

Hypothesis 2- လေ့လာတွေ့ရှိချက်များသည် သီးခြားဖြစ်သည်။ ဒေတာအတွဲရှိ စောင့်ကြည့်မှု တစ်ခုစီသည် တစ်ခုနှင့်တစ်ခု သီးခြားဖြစ်ရမည်။ ဆိုလိုသည်မှာ ရှုမြင်မှုတစ်ခုသည် အခြားလေ့လာချက်တစ်ခုနှင့် ပတ်သက်သော အချက်အလက်ကို ပေးစွမ်းနိုင်မည်မဟုတ်ပေ။

အယူအဆ 3- အကောင့်များခွဲဝေခြင်းသည် Poisson ဖြန့်ဝေမှုနောက်ဆက်တွဲဖြစ်သည်။ ရလဒ်အနေဖြင့် စောင့်ကြည့်လေ့လာပြီး မျှော်မှန်းထားသော အရေအတွက်သည် အလားတူဖြစ်သင့်သည်။ ၎င်းကို စမ်းသပ်ရန် ရိုးရှင်းသောနည်းလမ်းမှာ မျှော်လင့်ထားသည့် ကိန်းဂဏန်းများကို တွက်ချက်ပြီး ၎င်းတို့သည် ဆင်တူခြင်းရှိမရှိကို ကြည့်ရန်ဖြစ်သည်။

ယူဆချက် 4- မော်ဒယ်၏ ပျမ်းမျှ နှင့် ကွဲလွဲမှုသည် တူညီပါသည်။ ယင်းသည် Poisson ဖြန့်ဝေမှုနောက်ဆက်တွဲအဖြစ် အရေအတွက်များ ဖြန့်ကျက်မှုဟု ယူဆချက်မှ ရလဒ်ထွက်သည်။ Poisson ဖြန့်ဖြူးမှုအတွက်၊ ကွဲလွဲမှုသည် ပျမ်းမျှတန်ဖိုးနှင့် တူညီသည်။ ဤယူဆချက်အား ကျေနပ်ပါက၊ သင့်တွင် ညီမျှမှု ရှိသည်။ သို့သော်လည်း အလွန်အကျွံ ပျံ့နှံ့မှုသည် အဖြစ်များသော ပြဿနာဖြစ်သောကြောင့် ဤယူဆချက်ကို မကြာခဏ ချိုးဖောက်လေ့ရှိသည်။

ဥပမာ- R တွင် Poisson ဆုတ်ယုတ်မှု

ယခု ကျွန်ုပ်တို့သည် R တွင် Poisson ဆုတ်ယုတ်မှုကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြန်လည်သုံးသပ်ပါမည်။

နောက်ခံ

အထက်တန်းကျောင်း ဘေ့စ်ဘောကစားသမားတစ်ဦးသည် ၎င်း၏ကျောင်းဌာနခွဲ (“ A” , “ B” သို့မဟုတ် “ C” ) နှင့် ၎င်း၏ကျောင်းအဆင့်အပေါ်အခြေခံ၍ ခရိုင်တစ်ခုတွင် ပညာသင်ဆုမည်မျှရရှိသည်ကို ကျွန်ုပ်တို့သိချင်သည်ဆိုပါစို့။ တက္ကသိုလ်ဝင်ခွင့်စာမေးပွဲ (0 မှ 100)။ )

အောက်ဖော်ပြပါ ကုဒ်သည် ဘေ့စ်ဘောကစားသမား 100 ၏ ဒေတာများပါ၀င်သော ကျွန်ုပ်တို့နှင့် လုပ်ဆောင်မည့် ဒေတာအတွဲကို ဖန်တီးသည်-

 #make this example reproducible
set.seed(1)

#create dataset
data <- data.frame(offers = c(rep(0, 50), rep(1, 30), rep(2, 10), rep(3, 7), rep(4, 3)),
                   division = sample(c("A", "B", "C"), 100, replace = TRUE),
                   exam = c(runif(50, 60, 80), runif(30, 65, 95), runif(20, 75, 95)))

အချက်အလက်ကို နားလည်ခြင်း။

Poisson ဆုတ်ယုတ်မှုပုံစံကို ဤဒေတာအတွဲနှင့် အမှန်တကယ် အံဝင်ခွင်ကျမဖြစ်မီ၊ ဒေတာအတွဲ၏ ပထမတန်းအနည်းငယ်ကို မြင်ယောင်ကာ dplyr စာကြည့်တိုက်ကို အသုံးပြု၍ အနှစ်ချုပ်စာရင်းအင်းများကို လုပ်ဆောင်ခြင်းဖြင့် ဒေတာကို ပိုမိုကောင်းမွန်စွာ နားလည်နိုင်သည်-

 #view dimensions of dataset
dim(data)

#[1] 100 3

#view first six lines of dataset
head(data)

# offers division exam
#1 0 A 73.09448
#2 0 B 67.06395
#3 0 B 65.40520
#4 0 C 79.85368
#5 0 A 72.66987
#6 0 C 64.26416

#view summary of each variable in dataset
summary(data)

# offers division exam      
# Min. :0.00 To:27 Min. :60.26  
# 1st Qu.:0.00 B:38 1st Qu.:69.86  
# Median: 0.50 C:35 Median: 75.08  
# Mean:0.83 Mean:76.43  
# 3rd Qu.:1.00 3rd Qu.:82.87  
# Max. :4.00 Max. :93.87  

#view mean exam score by number of offers
library(dplyr)
data %>%
  group_by (offers) %>%
  summarize (mean_exam = mean(exam))

# A tibble: 5 x 2
# offers mean_exam
#        
#1 0 70.0
#2 1 80.8
#3 2 86.8
#4 3 83.9
#5 4 87.9

အထက်ဖော်ပြပါရလဒ်များမှ ကျွန်ုပ်တို့သည် အောက်ပါတို့ကို ကြည့်ရှုနိုင်သည် ။

ဒေတာအတွဲတွင် အတန်း 100 နှင့် ကော်လံ 3 ခု ရှိပါသည်။
ကစားသမားတစ်ဦးရရှိသော အနိမ့်ဆုံးကမ်းလှမ်းမှုအရေအတွက်မှာ သုညဖြစ်ပြီး အမြင့်ဆုံးမှာ လေးခုဖြစ်ပြီး ပျမ်းမျှမှာ 0.83 ဖြစ်သည်။
ဤဒေတာအတွဲတွင် “ A” ဌာနခွဲမှ ကစားသမား 27 ယောက်၊ “ B” ဌာနခွဲမှ ကစားသမား 38 ယောက်နှင့် “ C” ဌာနခွဲမှ ကစားသမား 35 ယောက်ရှိသည်။
အနိမ့်ဆုံးစာမေးပွဲရမှတ်မှာ 60.26 ဖြစ်ပြီး အမြင့်ဆုံးရမှတ်မှာ 93.87 ဖြစ်ပြီး ပျမ်းမျှ 76.43 ဖြစ်သည်။
ယေဘုယျအားဖြင့်၊ ပညာသင်ဆုကမ်းလှမ်းမှုများ ပိုမိုရရှိသော ကစားသမားများသည် ပိုမိုမြင့်မားသော စာမေးပွဲရမှတ်များ ရှိတတ်သည် (ဥပမာ၊ ကမ်းလှမ်းချက်မရှိသော ကစားသမားများအတွက် ပျမ်းမျှ စာမေးပွဲရမှတ်မှာ 70.0 ဖြစ်ပြီး ကမ်းလှမ်းချက် 4 ခုကို လက်ခံရရှိသည့် ကစားသမားများအတွက် ပျမ်းမျှ ပြန်လည်သုံးသပ်ရမှတ်မှာ 87.9) ဖြစ်သည်။

ကွဲပြားမှုအပေါ်အခြေခံ၍ ကစားသမားများလက်ခံရရှိသည့်ကမ်းလှမ်းမှုအရေအတွက်ကိုမြင်ယောင်ရန် ဟီစတိုဂရမ်တစ်ခုကိုလည်း ဖန်တီးနိုင်သည်-

 #load ggplot2 package
library(ggplot2)

#create histogram
ggplot(data, aes(offers, fill = division)) +
  geom_histogram(binwidth=.5, position="dodge")

ကစားသမားအများစုသည် ကမ်းလှမ်းမှုတစ်ခုမျှ သို့မဟုတ် တစ်ခုတည်းသာ မရရှိခဲ့သည်ကို ကျွန်ုပ်တို့ မြင်တွေ့နိုင်သည်။ ၎င်းသည် Poisson ဖြန့်ဝေမှုများကို လိုက်နာသော ဒေတာအစုံများ၏ ပုံမှန်ဖြစ်သည်- တုံ့ပြန်မှုတန်ဖိုးများ၏ ကောင်းသောအပိုင်းသည် သုညဖြစ်သည်။

Poisson ဆုတ်ယုတ်မှုပုံစံကို လိုက်ဖက်သည်။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် glm() လုပ်ဆောင်ချက်ကို အသုံးပြု၍ မော်ဒယ်ကို ချိန်ညှိနိုင်ပြီး မော်ဒယ်အတွက် family=” fish” ကို အသုံးပြုလိုကြောင်း သတ်မှတ်နိုင်သည်-

 #fit the model
model <- glm(offers ~ division + exam, family = "fish" , data = data)

#view model output
summary(model)

#Call:
#glm(formula = offers ~ division + exam, family = "fish", data = data)
#
#Deviance Residuals: 
# Min 1Q Median 3Q Max  
#-1.2562 -0.8467 -0.5657 0.3846 2.5033  
#
#Coefficients:
#Estimate Std. Error z value Pr(>|z|)    
#(Intercept) -7.90602 1.13597 -6.960 3.41e-12 ***
#divisionB 0.17566 0.27257 0.644 0.519    
#divisionC -0.05251 0.27819 -0.189 0.850    
#exam 0.09548 0.01322 7.221 5.15e-13 ***
#---
#Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#
#(Dispersion parameter for fish family taken to be 1)
#
# Null deviance: 138,069 on 99 degrees of freedom
#Residual deviance: 79,247 on 96 degrees of freedom
#AIC: 204.12
#
#Number of Fisher Scoring iterations: 5

ရလဒ်အနေဖြင့် အောက်ပါတို့ကို လေ့လာနိုင်ပါသည်။

Poisson ဆုတ်ယုတ်မှုကိန်းဂဏန်းများ၊ ခန့်မှန်းချက်များ၏ စံလွဲချော်မှု၊ z-ရမှတ်များနှင့် သက်ဆိုင်ရာ p-တန်ဖိုးများအားလုံးကို ပေးဆောင်ထားသည်။
ပြန်လည်သုံးသပ်မှု ကိန်းဂဏန်းသည် 0.09548 ဖြစ်ပြီး ပြန်လည်သုံးသပ်မှု တစ်ယူနစ်တိုးမှုအတွက် ကမ်းလှမ်းချက်အရေအတွက်အတွက် မျှော်လင့်ထားသည့်မှတ်တမ်းနံပါတ်သည် 0.09548 ဖြစ်ကြောင်းဖော်ပြသည်။ ၎င်းကို အဓိပ္ပာယ်ဖွင့်ဆိုရန် ပိုမိုရိုးရှင်းသောနည်းလမ်းမှာ e ^0.09548 = 1.10 ဟူသော အညွှန်းကိန်းတန်ဖိုးကို ယူခြင်းဖြစ်သည်။ ဆိုလိုသည်မှာ ဝင်ခွင့်စာမေးပွဲတွင် ရရှိသော ထပ်ဆောင်းအမှတ်တစ်ခုစီအတွက် ရရှိသည့် ကမ်းလှမ်းချက်အရေအတွက် 10% တိုးလာသည်ဟု ဆိုလိုသည်။
Division B အတွက် coefficient သည် 0.1756 ဖြစ်ပြီး၊ Division B ရှိ ကစားသမားတစ်ဦးအတွက် မျှော်မှန်းထားသော ကမ်းလှမ်းချက်အရေအတွက်သည် Division A ရှိ ကစားသမားတစ်ဦးထက် 0.1756 ပိုများကြောင်း ညွှန်ပြပါသည်။ ၎င်းကို အဓိပ္ပာယ်ဖွင့်ဆိုရန် ပိုမိုရိုးရှင်းသောနည်းလမ်းမှာ ကိန်းဂဏန်းတန်ဖိုးကို ယူခြင်းဖြစ်သည်၊ ဆိုလိုသည်မှာ e ^0.1756 = ၁.၁၉ ။ ဆိုလိုသည်မှာ division B မှ ကစားသမားများသည် အပိုင်း A ရှိ ကစားသမားများထက် 19% ပိုကမ်းလှမ်းမှုများကို ရရှိပါသည်။ ဤကွာခြားချက်သည် ကိန်းဂဏန်းအရ သိသာထင်ရှားခြင်းမရှိကြောင်း သတိပြုပါ (p = 0.519)။
Division C အတွက် coefficient သည် -0.05251 ဖြစ်ပြီး၊ Division C တွင် ကစားသမားတစ်ဦးအတွက် ကမ်းလှမ်းမှုအရေအတွက်အတွက် မျှော်လင့်ထားသော မှတ်တမ်းနံပါတ်သည် Division A ရှိ ကစားသမားတစ်ဦးထက် 0.05251 နိမ့် ကြောင်း ညွှန်ပြပါသည်။ ၎င်းကို အဓိပ္ပာယ်ဖွင့်ဆိုရန် ပိုမိုရိုးရှင်းသောနည်းလမ်းမှာ အတိုးကိန်းတန်ဖိုးကို ယူခြင်းဖြစ်သည်။ ဆိုလိုသည်မှာ e ^0.05251 = 0.94 ဖြစ်သည်။ ဆိုလိုသည်မှာ အပိုင်း C မှ ကစားသမားများသည် အပိုင်း A ရှိ ကစားသမားများထက် 6% ပိုနည်းသော ကမ်းလှမ်းမှုများကို ရရှိသည်။ ဤကွာခြားချက်မှာ ကိန်းဂဏန်းအရ သိသာထင်ရှားခြင်းမရှိကြောင်း သတိပြုပါ။ (p = 850)။

မော်ဒယ်ကွဲလွဲမှုဆိုင်ရာ အချက်အလက်ကိုလည်း ပေးထားသည်။ လွတ်လပ်မှု 96 ဒီဂရီမှ 79,247 တန်ဖိုးရှိသည့် ကျန်ရှိသောသွေဖည်မှုကို ကျွန်ုပ်တို့ အထူးစိတ်ဝင်စားပါသည်။ ဤနံပါတ်များကို အသုံးပြု၍ မော်ဒယ်သည် ဒေတာနှင့် ကိုက်ညီမှုရှိမရှိ စစ်ဆေးရန် chi-square goodness-of-fit စမ်းသပ်မှုကို လုပ်ဆောင်နိုင်ပါသည်။ အောက်ပါကုဒ်သည် ဤစမ်းသပ်မှုကို မည်သို့လုပ်ဆောင်ရမည်ကို ဖော်ပြသည်-

 pchisq(79.24679, 96, lower.tail = FALSE)

#[1] 0.8922676

ဤစစ်ဆေးမှုအတွက် p-value သည် 0.89 ဖြစ်ပြီး 0.05 significance အဆင့်ထက် ကောင်းမွန်ပါသည်။ ဒေတာသည် မော်ဒယ်နှင့် သင့်လျော်ကြောင်း ကျွန်ုပ်တို့ ကောက်ချက်ချနိုင်သည်။

ရလဒ်များကိုကြည့်ပါ။

အောက်ဖော်ပြပါ ကုဒ်ကို အသုံးပြု၍ ဌာနခွဲနှင့် ဝင်ခွင့်စာမေးပွဲရလဒ်များအပေါ် အခြေခံ၍ ရရှိမည့် ပညာသင်ဆုကမ်းလှမ်းမှုအရေအတွက်ကို ပြသသည့် ဇယားတစ်ခုကိုလည်း ဖန်တီးနိုင်သည်-

 #find predicted number of offers using the fitted Poisson regression model
data$phat <- predict(model, type="response")

#create plot that shows number of offers based on division and exam score
ggplot(data, aes(x = exam, y = phat, color = division)) +
  geom_point(aes(y = offers), alpha = .7, position = position_jitter(h = .2)) +
  geom_line() +
  labs(x = "Entrance Exam Score", y = "Expected number of scholarship offers")

ဇယားတွင် ဝင်ခွင့်စာမေးပွဲတွင် အမှတ်အများဆုံးရရှိသော ကစားသမားများအတွက် မျှော်မှန်းထားသော ပညာသင်ဆုကမ်းလှမ်းမှု အရေအတွက် အများဆုံးကို ပြသထားသည်။ ထို့အပြင်၊ Division B (အစိမ်းရောင်လိုင်း) ရှိ ကစားသမားများသည် Division A သို့မဟုတ် Division C ရှိ ကစားသမားများထက် ယေဘုယျအားဖြင့် ကမ်းလှမ်းမှုများ ပိုမိုရရှိသင့်သည်ကို ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

ရလဒ်များကို သတင်းပို့ပါ။

နောက်ဆုံးတွင်၊ ကျွန်ုပ်တို့၏တွေ့ရှိချက်များကို အကျဉ်းချုပ်ဖော်ပြသည့်နည်းလမ်းဖြင့် ဆုတ်ယုတ်မှုရလဒ်များကို အစီရင်ခံနိုင်သည်-

ပဲခူးတိုင်းနှင့် ဝင်ခွင့်စာမေးပွဲရမှတ်များအပေါ် အခြေခံ၍ ဘေ့စ်ဘောကစားသမားများမှ ရရှိသည့် ပညာသင်ဆုကမ်းလှမ်းမှုအရေအတွက်ကို ခန့်မှန်းရန် Poisson ဆုတ်ယုတ်မှုတစ်ခု လုပ်ဆောင်ခဲ့သည်။ ဝင်ခွင့်စာမေးပွဲတွင် ရရှိသော နောက်ထပ်အမှတ်တစ်ခုစီအတွက်၊ လက်ခံရရှိသောကမ်းလှမ်းချက်အရေအတွက်သည် 10% ( p < 0.0001) တိုးလာသည်။ ခွဲဝေမှုကို ကိန်းဂဏန်းအရ သိသာထင်ရှားစွာ မတွေ့ရှိရပါ။

ထပ်လောင်းအရင်းအမြစ်များ

Simple Linear Regression နိဒါန်း
Multiple Linear Regression အကြောင်း နိဒါန်း
Polynomial Regression နိဒါန်း

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။