R (၄) နည်းလမ်းဖြင့် ပုံမှန်အတိုင်း စမ်းသပ်နည်း၊


ကိန်းဂဏန်းစစ်ဆေးမှုများစွာသည် ဒေတာအစုံများကို ပုံမှန်ဖြန့်ဝေသည်ဟု ယူဆသည်

R တွင် ဤယူဆချက်ကို စစ်ဆေးရန် ဘုံနည်းလမ်း လေးခုရှိသည်။

1. (အမြင်နည်း) ဟီစတိုဂရမ်တစ်ခု ဖန်တီးပါ။

  • ဟီစတိုဂရမ်သည် ခန့်မှန်းခြေအားဖြင့် “ ခေါင်းလောင်း” ပုံသဏ္ဍာန်ဖြစ်ပါက၊ ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေသည်ဟု ယူဆပါသည်။

2. (Visual Method) QQ ကွက်ကွက်ဖန်တီးပါ။

  • ကွက်လပ်ပေါ်ရှိ အမှတ်များသည် ဖြောင့်ထောင့်ဖြတ်မျဉ်းတစ်လျှောက် အကြမ်းဖျင်းအားဖြင့် တည်ရှိနေပါက ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေသည်ဟု ယူဆပါသည်။

3. (တရားဝင်စာရင်းအင်းစမ်းသပ်မှု) Shapiro-Wilk စမ်းသပ်မှုပြုလုပ်ပါ။

  • စမ်းသပ်မှု၏ p-value သည် α = 0.05 ထက် ကြီးပါက ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေသည်ဟု ယူဆပါသည်။

4. (တရားဝင်စာရင်းအင်းစမ်းသပ်မှု) Kolmogorov-Smirnov စမ်းသပ်မှုပြုလုပ်ပါ။

  • စမ်းသပ်မှု၏ p-value သည် α = 0.05 ထက် ကြီးပါက ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေသည်ဟု ယူဆပါသည်။

အောက်ဖော်ပြပါ ဥပမာများသည် ဤနည်းလမ်းတစ်ခုစီကို လက်တွေ့အသုံးချနည်းကို ပြသထားသည်။

နည်းလမ်း 1- Histogram ဖန်တီးပါ။

အောက်ပါကုဒ်သည် R တွင် ပုံမှန်ဖြန့်ဝေပြီး ပုံမှန်မဟုတ်သော ဖြန့်ဝေထားသောဒေတာအတွဲအတွက် ဟီစတိုဂရမ်ကို ဖန်တီးနည်းကို ပြသသည်-

 #make this example reproducible
set. seeds (0)

#create data that follows a normal distribution
normal_data <- rnorm(200)

#create data that follows an exponential distribution
non_normal_data <- rexp(200, rate=3)

#define plotting region
by(mfrow=c(1,2)) 

#create histogram for both datasets
hist(normal_data, col=' steelblue ', main=' Normal ')
hist(non_normal_data, col=' steelblue ', main=' Non-normal ') 

ဘယ်ဘက်ရှိ ဟီစတိုဂရမ်တွင် ပုံမှန်ဖြန့်ဝေထားသည့် ဒေတာအစုတစ်ခု (အကြမ်းဖျင်းအားဖြင့် “ ခေါင်းလောင်းပုံသဏ္ဍာန်) ကို ပြသထားပြီး ညာဘက်တွင်မူ ပုံမှန်ဖြန့်ဝေခြင်းမရှိသည့် ဒေတာအစုတစ်ခုကို ပြသသည်။

နည်းလမ်း 2- QQ Plot တစ်ခုဖန်တီးပါ။

အောက်ပါကုဒ်သည် R တွင် ပုံမှန်ဖြန့်ဝေပြီး ပုံမှန်မဟုတ်သော ဖြန့်ဝေထားသောဒေတာအတွဲအတွက် QQ ကွက်ကွက်ဖန်တီးနည်းကို ပြသသည်-

 #make this example reproducible
set. seeds (0)

#create data that follows a normal distribution
normal_data <- rnorm(200)

#create data that follows an exponential distribution
non_normal_data <- rexp(200, rate=3)

#define plotting region
by(mfrow=c(1,2)) 

#create QQ plot for both datasets
qqnorm(normal_data, main=' Normal ')
qqline(normal_data)

qqnorm(non_normal_data, main=' Non-normal ')
qqline(non_normal_data)

ဘယ်ဘက်ရှိ QQ ကွက်ကွက်သည် ပုံမှန်ဖြန့်ဝေထားသည့် ဒေတာအစုတစ်ခုကို တင်ပြသည် (အချက်များသည် ထောင့်ဖြတ်မျဉ်းဖြောင့်တစ်လျှောက် ကျရောက်သည်) နှင့် ညာဘက်ရှိ QQ ကွက်ကွက်သည် ပုံမှန်ဖြန့်ဝေခြင်းမရှိသည့် ဒေတာအစုတစ်ခုကို တင်ပြသည်။

နည်းလမ်း 3- Shapiro-Wilk စမ်းသပ်မှုပြုလုပ်ပါ။

အောက်ပါကုဒ်သည် R တွင် ပုံမှန်ဖြန့်ဝေပြီး ပုံမှန်မဟုတ်သော ဖြန့်ဝေထားသောဒေတာအတွဲတစ်ခုတွင် Shapiro-Wilk စမ်းသပ်မှုကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြသသည်-

 #make this example reproducible
set. seeds (0)

#create data that follows a normal distribution
normal_data <- rnorm(200)

#perform shapiro-wilk test
shapiro. test (normal_data)

	Shapiro-Wilk normality test

data: normal_data
W = 0.99248, p-value = 0.3952

#create data that follows an exponential distribution
non_normal_data <- rexp(200, rate=3)

#perform shapiro-wilk test
shapiro. test (non_normal_data)

	Shapiro-Wilk normality test

data: non_normal_data
W = 0.84153, p-value = 1.698e-13

ပထမစမ်းသပ်မှု၏ p-တန်ဖိုးသည် 0.05 ထက်မနည်းဘဲ၊ ၎င်းသည် ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေနေကြောင်း ညွှန်ပြသည်။

ဒုတိယစမ်းသပ်မှု၏ p-တန်ဖိုး သည် 0.05 ထက်နည်းပြီး ဒေတာကို ပုံမှန်ဖြန့်ဝေခြင်းမရှိကြောင်း ညွှန်ပြသည်။

နည်းလမ်း 4- Kolmogorov-Smirnov စမ်းသပ်မှုပြုလုပ်ပါ။

အောက်ပါကုဒ်သည် R တွင် ပုံမှန်ဖြန့်ဝေပြီး ပုံမှန်မဟုတ်သော ဖြန့်ဝေထားသောဒေတာအတွဲတစ်ခုတွင် Kolmogorov-Smirnov စမ်းသပ်မှုကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြသသည်-

 #make this example reproducible
set. seeds (0)

#create data that follows a normal distribution
normal_data <- rnorm(200)

#perform kolmogorov-smirnov test
ks. test (normal_data, ' pnorm ')

	One-sample Kolmogorov–Smirnov test

data: normal_data
D = 0.073535, p-value = 0.2296
alternative hypothesis: two-sided

#create data that follows an exponential distribution
non_normal_data <- rexp(200, rate=3)

#perform kolmogorov-smirnov test
ks. test (non_normal_data, ' pnorm ') 
	One-sample Kolmogorov–Smirnov test

data: non_normal_data
D = 0.50115, p-value < 2.2e-16
alternative hypothesis: two-sided

ပထမစမ်းသပ်မှု၏ p-တန်ဖိုးသည် 0.05 ထက်မနည်းဘဲ၊ ၎င်းသည် ဒေတာကို ပုံမှန်အတိုင်း ဖြန့်ဝေနေကြောင်း ညွှန်ပြသည်။

ဒုတိယစမ်းသပ်မှု၏ p-တန်ဖိုး သည် 0.05 ထက်နည်းပြီး ဒေတာကို ပုံမှန်ဖြန့်ဝေခြင်းမရှိကြောင်း ညွှန်ပြသည်။

ပုံမှန်မဟုတ်သောဒေတာကို ကိုင်တွယ်နည်း

ပေးထားသည့် ဒေတာအစုံကို ပုံမှန်အတိုင်း ဖြန့်ဝေခြင်း မရှိပါက ၊ ၎င်းကို ပုံမှန်အတိုင်း ပိုမိုဖြန့်ဝေနိုင်စေရန် အောက်ပါအသွင်ပြောင်းမှုများထဲမှ တစ်ခုကို ကျွန်ုပ်တို့ မကြာခဏ လုပ်ဆောင်နိုင်သည်-

1. မှတ်တမ်းအသွင်ပြောင်းခြင်း- x တန်ဖိုးများကို log(x) သို့ ပြောင်းလဲပါ။

2. Square root အသွင်ပြောင်းခြင်း- x မှ √x တန်ဖိုးများကို ပြောင်းပါ။

3. Cube root အသွင်ပြောင်းခြင်း- x မှ x 1/3 တန်ဖိုးများကို ပြောင်းလဲပါ။

ဤအသွင်ပြောင်းမှုများကို လုပ်ဆောင်ခြင်းဖြင့် ဒေတာအတွဲသည် ယေဘူယျအားဖြင့် ပိုမိုပုံမှန်အတိုင်း ဖြန့်ဝေလာပါသည်။

R တွင် ဤအသွင်ပြောင်းမှုများကို မည်သို့လုပ်ဆောင်ရမည်ကို ကြည့်ရှုရန် ဤသင်ခန်းစာကို ဖတ်ပါ။

ထပ်လောင်းအရင်းအမြစ်များ

R တွင် histograms ဖန်တီးနည်း
R တွင် QQ ကွက်ကွက်တစ်ခုကို ဖန်တီးပြီး အဓိပ္ပာယ်ဖွင့်နည်း
R တွင် Shapiro-Wilk စမ်းသပ်မှုပြုလုပ်နည်း
R တွင် Kolmogorov-Smirnov စမ်းသပ်မှုပြုလုပ်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်