R တွင် grubbs 'tester ကိုဘယ်လိုဖွင့်ရမလဲ


Grubbs စမ်းသပ်မှု သည် ဒေတာအတွဲတစ်ခုတွင် ပြင်ပအရာများရှိနေခြင်းကို ခွဲခြားသတ်မှတ်ရန် အသုံးပြုနိုင်သည့် ကိန်းဂဏန်းစမ်းသပ်မှုတစ်ခုဖြစ်သည်။

ဤစမ်းသပ်မှုကို အသုံးပြုရန်၊ ဒေတာအတွဲတစ်ခုတွင် ခန့်မှန်းခြေအားဖြင့် ပုံမှန်ဖြန့်ဝေမှုတစ်ခု ရှိရမည်ဖြစ်ပြီး လေ့လာကြည့်ရှုမှု အနည်းဆုံး 7 ခုပါရှိသည်။

ဤကျူတိုရီရယ်တွင် ဒေတာအတွဲတစ်ခုရှိ အစွန်းထွက်များကို ရှာဖွေရန် R တွင် Grubbs စမ်းသပ်နည်းကို ရှင်းပြထားသည်။

ဥပမာ- R တွင် Grubbs စမ်းသပ်မှု

R တွင် Grubbs စမ်းသပ်မှုကို လုပ်ဆောင်ရန်၊ အောက်ပါ syntax ကိုအသုံးပြုသည့် Outliers package မှ grubbs.test() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်ပါသည်။

grubbs.test(x၊ အမျိုးအစား = 10၊ ဆန့်ကျင်ဘက် = FALSE၊ နှစ်ချက် = FALSE)

ရွှေ-

  • x- ဒေတာတန်ဖိုးများ၏ ကိန်းဂဏာန်း vector တစ်ခု
  • အမျိုးအစား- 10 = အမြင့်ဆုံးတန်ဖိုးသည် အစွန်းထွက်ရှိမရှိ စမ်းသပ်ပါ၊ 11 = min နှင့် max တန်ဖိုးများသည် အစွန်းထွက်ရှိမရှိ စမ်းသပ်ပါ၊ 20 = အမြီးတွင် အစွန်းနှစ်ခုရှိလျှင် စမ်းသပ်ပါ
  • ဆန့်ကျင်ဘက်- ပျမ်းမျှတန်ဖိုးနှင့် အကြီးမားဆုံးခြားနားချက်ကို သင်စစ်ဆေးလိုခြင်းရှိမရှိ ညွှန်ပြသော ယုတ္တိဗေဒ၊ ဆန့်ကျင်ဘက် (အနိမ့်ဆုံး၊ သံသယဖြစ်စရာအကောင်းဆုံးသည် အမြင့်ဆုံးဖြစ်သည်၊ စသည်ဖြင့်)
  • bilateral- စစ်ဆေးမှုအား အပြန်အလှန်အားဖြင့် ဆက်ဆံသင့်သည် ရှိမရှိ ညွှန်ပြသည့် ယုတ္တိတန်ဖိုး

ဤစမ်းသပ်မှုသည် အောက်ပါယူဆချက်နှစ်ခုကို အသုံးပြုသည်-

H 0 (null hypothesis)- ဒေတာတွင် အစွန်းထွက်များ မရှိပါ။

H A (အခြားသောယူဆချက်)- ဒေတာတွင် အကြမ်းဖျင်းတစ်ခုရှိသည်။

ဒေတာအစုံရှိ အများဆုံးတန်ဖိုးသည် သာလွန်ခြင်းရှိ၊ မရှိ ဆုံးဖြတ်ရန် Grubbs စမ်းသပ်မှုကို မည်သို့လုပ်ဆောင်ရမည်ကို အောက်ပါဥပမာတွင် ဖော်ပြထားပါသည်။

 #load Outliers package
library(Outliers)

#createdata
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40)

#perform Grubbs' Test to see if '40' is an outlier
grubbs.test(data)

# Grubbs test for one outlier
#
#data:data
#G = 2.65990, U = 0.55935, p-value = 0.02398
#alternative hypothesis: highest value 40 is an outlier

စာမေးပွဲ၏စမ်းသပ်စာရင်းအင်းသည် G = 2.65990 ဖြစ်ပြီး သက်ဆိုင်ရာ p-value မှာ p = 0.02398 ဖြစ်သည်။ ဤတန်ဖိုးသည် 0.05 ထက်နည်းသောကြောင့်၊ ကျွန်ုပ်တို့သည် null hypothesis ကို ငြင်းပယ်ပြီး အမြင့်ဆုံးတန်ဖိုး 40 သည် သာလွန်သည်ဟု ကောက်ချက်ချပါမည်။

“ 5” ၏ အနိမ့်ဆုံးတန်ဖိုးသည် အစွန်းထွက်ရှိ၊ မရှိ စမ်းသပ်လိုပါက ဆန့်ကျင်ဘက်=TRUE command ကို အသုံးပြုနိုင်ပါသည်။

 #perform Grubbs' Test to see if '5' is an outlier
grubbs.test(data, opposite= TRUE )

# Grubbs test for one outlier
#
#data:data
#G = 1.4879, U = 0.8621, p-value = 1
#alternative hypothesis: lowest value 5 is an outlier

စမ်းသပ်စာရင်းအင်းသည် G = 1.4879 ဖြစ်ပြီး သက်ဆိုင်ရာ p-value မှာ p = 1 ဖြစ်သည်။ ဤတန်ဖိုးသည် 0.05 ထက်မနည်းသောကြောင့်၊ null hypothesis ကို ငြင်းပယ်ရန် ပျက်ကွက်ပါသည်။ အနိမ့်ဆုံးတန်ဖိုး “ 5” သည် သာလွန်သည်ဟု ဆိုရန် လုံလောက်သော အထောက်အထား မရှိပါ။

နောက်ဆုံးတွင်၊ ကျွန်ုပ်တို့တွင် ဒေတာအစုံ၏တစ်ဖက်စွန်းတွင် ကြီးမားသောတန်ဖိုးနှစ်ခုရှိသည်ဆိုပါစို့- 40 နှင့် 42။ ဤတန်ဖိုး နှစ်ခု သည် အစွန်းထွက်ရှိမရှိ စမ်းသပ်ရန်အတွက် Grubbs စမ်းသပ်မှုကို လုပ်ဆောင်ပြီး type=20 ကို သတ်မှတ်နိုင်သည်-

 #create dataset with two large values at one end: 40 and 42
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) 

#perform Grubbs' Test to see if both 40 and 42 are outliers
grubbs.test(data, type=20)

# Grubbs test for two outliers
#
#data: data
#U = 0.38111, p-value = 0.01195
#alternative hypothesis: highest values 40, 42 are outliers

စာမေးပွဲ၏ p-တန်ဖိုးသည် 0.01195 ဖြစ်သည်။ ဤတန်ဖိုးသည် 0.05 ထက်နည်းသောကြောင့်၊ ကျွန်ုပ်တို့သည် null hypothesis ကို ငြင်းပယ်နိုင်ပြီး တန်ဖိုး 40 နှင့် 42 တို့သည် အစွန်းထွက်သည်ဟုဆိုရန် လုံလောက်သော အထောက်အထားများရှိသည်ဟု ကျွန်ုပ်တို့ ကောက်ချက်ချနိုင်သည်။

အစွန်းအထင်းတွေကို ဘယ်လိုကိုင်တွယ်မလဲ။

Grubbs စမ်းသပ်မှုသည် သင့်ဒေတာအတွဲတွင် အစွန်းထွက်တစ်ခုကို ဖော်ထုတ်ပါက၊ သင့်တွင် ရွေးချယ်စရာများစွာရှိသည်-

1. တန်ဖိုးသည် typo သို့မဟုတ် data entry error မဟုတ်ကြောင်း ပြန်စစ်ဆေးပါ။ တစ်ခါတစ်ရံတွင် ဒေတာအတွဲများတွင် အစွန်းထွက်များအဖြစ် ပေါ်လာသော တန်ဖိုးများသည် ဒေတာထည့်သွင်းစဉ်အတွင်း တစ်ဦးချင်းမှ ရိုးရိုးအမှားလုပ်သည်။ နောက်ထပ်ဆုံးဖြတ်ချက်များ မချမီ ပြန်သွားပြီး တန်ဖိုးကို မှန်ကန်စွာ ထည့်သွင်းထားကြောင်း စစ်ဆေးပါ။

2. အကွာအဝေးကို တန်ဖိုးအသစ်တစ်ခု သတ်မှတ်ပါ ။ အကြမ်းဖျင်းသည် typo သို့မဟုတ် data entry error ၏ရလဒ်ဖြစ်လာပါက၊ data set ၏ mean သို့မဟုတ် median ကဲ့သို့ တန်ဖိုးအသစ်တစ်ခုသတ်မှတ်ရန် သင်ဆုံးဖြတ်နိုင်ပါသည်။

3. အကွာအဝေးကို ဖယ်ရှားပါ။ တန်ဖိုးသည် အမှန်တကယ် သာလွန်နေပါက၊ ၎င်းသည် သင်၏ အလုံးစုံခွဲခြမ်းစိတ်ဖြာမှုအပေါ် သိသာထင်ရှားသော သက်ရောက်မှုရှိမည်ဆိုပါက ၎င်းကို ဖယ်ရှားရန် သင်ရွေးချယ်နိုင်ပါသည်။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်