R ဖြင့် mahalanobis အကွာအဝေးကို တွက်နည်း

အားဖြင့် Benjamin Anderson ဇူလိုင် 28, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

Mahalanobis အကွာအဝေး သည် အမျိုးမျိုးကွဲပြားသောနေရာတစ်ခုရှိ အမှတ်နှစ်ခုကြားအကွာအဝေးဖြစ်သည်။

ကိန်းရှင်များစွာပါ၀င်သော စာရင်းအင်းခွဲခြမ်းစိတ်ဖြာမှုတွင် အစွန်းထွက်များကို ရှာဖွေရန် ၎င်းကို မကြာခဏအသုံးပြုသည်။

ဤသင်ခန်းစာတွင် Mahalanobis အကွာအဝေးကို R ဖြင့် တွက်ချက်နည်းကို ရှင်းပြထားသည်။

ဥပမာ- R တွင် Mahalanobis အကွာအဝေး

R ရှိ ဒေတာအတွဲတစ်ခုရှိ စောင့်ကြည့်မှု တစ်ခုစီအတွက် Mahalanobis အကွာအဝေးကို တွက်ချက်ရန် အောက်ပါအဆင့်များကို အသုံးပြုပါ။

အဆင့် 1: ဒေတာအတွဲကို ဖန်တီးပါ။

ပထမဦးစွာ၊ ကျောင်းသား 20 ၏ စာမေးပွဲရမှတ်များကို ဖော်ပြမည့် ဒေတာအတွဲတစ်ခု ဖန်တီးပြီး ၎င်းတို့သည် ၎င်းတို့လေ့လာခဲ့သည့် နာရီအရေအတွက်၊ ၎င်းတို့ဖြေဆိုခဲ့သည့် လက်တွေ့စာမေးပွဲအရေအတွက်နှင့် သင်တန်းတွင် ၎င်းတို့၏ လက်ရှိအတန်းများကို ဖော်ပြသည်-

 #create data
df = data.frame(score = c(91, 93, 72, 87, 86, 73, 68, 87, 78, 99, 95, 76, 84, 96, 76, 80, 83, 84, 73, 74) ,
        hours = c(16, 6, 3, 1, 2, 3, 2, 5, 2, 5, 2, 3, 4, 3, 3, 3, 4, 3, 4, 4),
        prep = c(3, 4, 0, 3, 4, 0, 1, 2, 1, 2, 3, 3, 3, 2, 2, 2, 3, 3, 2, 2),
        grade = c(70, 88, 80, 83, 88, 84, 78, 94, 90, 93, 89, 82, 95, 94, 81, 93, 93, 90, 89, 89))

#view first six rows of data
head(df)

  score hours prep grade
1 91 16 3 70
2 93 6 4 88
3 72 3 0 80
4 87 1 3 83
5 86 2 4 88
6 73 3 0 84

အဆင့် 2- စူးစမ်းမှုတစ်ခုစီအတွက် Mahalanobis အကွာအဝေးကို တွက်ချက်ပါ။

ထို့နောက်၊ အောက်ဖော်ပြပါ syntax ကိုအသုံးပြုသည့် ရှုထောင့်တစ်ခုစီအတွက် Mahalanobis အကွာအဝေးကို တွက်ချက်ရန် R တွင် တည်ဆောက်ထားသော mahalanobis() လုပ်ဆောင်ချက်ကို အသုံးပြုပါမည်။

mahalanobis (x၊ ဗဟို၊ cov)

ရွှေ-

x: ဒေတာမက်ထရစ်
အလယ်- ဖြန့်ဖြူးမှု၏ ပျမ်းမျှ vector
cov

အောက်ပါကုဒ်သည် ကျွန်ုပ်တို့၏ဒေတာအတွဲအတွက် ဤလုပ်ဆောင်ချက်ကို မည်သို့အကောင်အထည်ဖော်ရမည်ကို ပြသသည်-

 #calculate Mahalanobis distance for each observation
mahalanobis(df, colMeans(df), cov(df))

 [1] 16.5019630 2.6392864 4.8507973 5.2012612 3.8287341 4.0905633
 [7] 4.2836303 2.4198736 1.6519576 5.6578253 3.9658770 2.9350178
[13] 2.8102109 4.3682945 1.5610165 1.4595069 2.0245748 0.7502536
[19] 2.7351292 2.2642268

အဆင့် 3- Mahalanobis အကွာအဝေးတစ်ခုစီအတွက် p-တန်ဖိုးကို တွက်ချက်ပါ။

အချို့သော Mahalanobis အကွာအဝေးများသည် အခြားအရာများထက် များစွာကြီးမားသည်ကို ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

အကွာအဝေးများသည် ကိန်းဂဏန်းအရ သိသာထင်ရှားမှုရှိမရှိ ဆုံးဖြတ်ရန်၊ ၎င်းတို့၏ p-တန်ဖိုးများကို တွက်ချက်ရန် လိုအပ်သည်။

အကွာအဝေးတစ်ခုစီအတွက် p-တန်ဖိုးကို Mahalanobis အကွာအဝေး၏ Chi-square ကိန်းဂဏန်းနှင့် သက်ဆိုင်သည့် p-value အဖြစ် တွက်ချက်ထားပြီး၊ k = ကိန်းရှင်အရေအတွက်၊

ထို့ကြောင့် ဤကိစ္စတွင် ကျွန်ုပ်တို့သည် လွတ်လပ်မှုဒီဂရီ 4-1 = 3 ကိုသုံးပါမည်။

 #create new column in data frame to hold Mahalanobis distances
df$mahal <- mahalanobis(df, colMeans(df), cov(df))

#create new column in data frame to hold p-value for each Mahalanobis distance
df$p <- pchisq (df$mahal, df= 3 , lower.tail=FALSE)

#view data frame
df

   score hours prep grade mahal p
1 91 16 3 70 16.5019630 0.0008945642
2 93 6 4 88 2.6392864 0.4506437265
3 72 3 0 80 4.8507973 0.1830542407
4 87 1 3 83 5.2012612 0.1576392526
5 86 2 4 88 3.8287341 0.2805615121
6 73 3 0 84 4.0905633 0.2518495222
7 68 2 1 78 4.2836303 0.2324211504
8 87 5 2 94 2.4198736 0.4899458807
9 78 2 1 90 1.6519576 0.6476670033
10 99 5 2 93 5.6578253 0.1294978092
11 95 2 3 89 3.9658770 0.2651724541
12 76 3 3 82 2.9350178 0.4017530495
13 84 4 3 95 2.8102109 0.4218217836
14 96 3 2 94 4.3682945 0.2243432904
15 76 3 2 81 1.5610165 0.6682610031
16 80 3 2 93 1.4595069 0.6916471506
17 83 4 3 93 2.0245748 0.5673218169
18 84 3 3 90 0.7502536 0.8613248635
19 73 4 2 89 2.7351292 0.4342904353
20 74 4 2 89 2.2642268 0.5194087143

ယေဘူယျအားဖြင့်၊ 0.001 ထက်နည်းသော p-value ကို outlier အဖြစ်သတ်မှတ်သည်။

p-value သည် 0.001 ထက်နည်းသောကြောင့် ပထမအကြိမ်လေ့လာချက်သည် dataset တွင်အစွန်းထွက်ကြောင်းကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

ပြဿနာ၏ ဆက်စပ်မှုအပေါ်မူတည်၍ ၎င်းသည် သာလွန်ပြီး ခွဲခြမ်းစိတ်ဖြာမှုရလဒ်များကို ထိခိုက်စေနိုင်သောကြောင့် ဤလေ့လာချက်ကို ဒေတာအတွဲမှ ဖယ်ရှားရန် သင်ဆုံးဖြတ်နိုင်ပါသည်။

ဆက်စပ်- R တွင် Multivariate Normality Tests ကို မည်သို့လုပ်ဆောင်ရမည်နည်း။

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။

ဥပမာ- R တွင် Mahalanobis အကွာအဝေး

စာရေးသူအကြောင်း

Benjamin Anderson

မှတ်ချက်တစ်ခုထည့်ပါ။