R in the iris dataset အတွက် လမ်းညွှန်ချက်အပြည့်အစုံ


iris dataset သည် မတူညီသောမျိုးစိတ် 3 ခုမှ ပန်း 50 အတွက် မတူညီသော attribute 4 ခု (စင်တီမီတာအတွင်း) တွင် တိုင်းတာမှုများပါရှိသော R တွင် ပေါင်းစပ်ထားသော dataset တစ်ခုဖြစ်သည်။

ဤသင်ခန်းစာတွင် iris ဒေတာအတွဲကို နမူနာအဖြစ် အသုံးပြု၍ R တွင် ဒေတာအတွဲတစ်ခုကို စူးစမ်းပြီး အကျဉ်းချုပ်ပုံကို ရှင်းပြထားသည်။

ဆက်စပ်- R ရှိ mtcars Dataset အတွက် ပြီးပြည့်စုံသော လမ်းညွှန်

Iris ဒေတာအတွဲကို တင်ပါ။

iris dataset သည် R တွင် built-in dataset တစ်ခုဖြစ်သောကြောင့်၊ အောက်ပါ command ကိုအသုံးပြု၍ ၎င်းကို load လုပ်နိုင်ပါသည်။

 data(iris)

head() လုပ်ဆောင်ချက်ကို အသုံးပြု၍ dataset ၏ ပထမခြောက်တန်းကို ကြည့်နိုင်သည်-

 #view first six rows of iris dataset
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

Iris ဒေတာအတွဲကို အကျဉ်းချုပ်ပါ။

dataset အတွင်းရှိ variable တစ်ခုစီကို လျင်မြန်စွာ အကျဉ်းချုပ်ရန် summary() function ကို အသုံးပြုနိုင်ပါသည်။

 #summarize iris dataset
summary(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   
 Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100  
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300  
 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300  
 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199  
 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800  
 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500  
       Species  
 setosa:50  
 versicolor:50  
 virginica :50

ကိန်းဂဏန်းကိန်းရှင်တစ်ခုစီအတွက် အောက်ပါအချက်အလက်များကို ကျွန်ုပ်တို့ကြည့်ရှုနိုင်သည်-

  • အနည်းဆုံး : အနိမ့်ဆုံးတန်ဖိုး။
  • 1st Qu : ပထမ quartile ၏တန်ဖိုး (25th ရာခိုင်နှုန်း)။
  • Median : ပျမ်းမျှတန်ဖိုး။
  • ပျမ်းမျှ : ပျမ်းမျှတန်ဖိုး။
  • 3rd Qu : တတိယ quartile (75th ရာခိုင်နှုန်း) ၏တန်ဖိုး။
  • Max : အများဆုံးတန်ဖိုး။

ဒေတာအတွဲ (အမျိုးအစားများ) ရှိ တစ်ခုတည်းသော အမျိုးအစားခွဲကွဲပြားသော ကိန်းရှင်အတွက်၊ တန်ဖိုးတစ်ခုစီ၏ ကြိမ်နှုန်းအရေအတွက်ကို ကျွန်ုပ်တို့ တွေ့ရသည်-

  • setosa : ဤမျိုးစိတ်သည် အကြိမ် ၅၀ ရှိသည်။
  • versicolor : ဤမျိုးစိတ်သည် အကြိမ် 50 ဖြစ်ပွားသည်။
  • virginica : ဤမျိုးစိတ်သည် အကြိမ် ၅၀ ရှိသည်။

အတန်းများနှင့် ကော်လံအရေအတွက်အရ ဒေတာအတွဲ၏အတိုင်းအတာများကို ရယူရန် dim() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

 #display rows and columns
dim(iris)

[1] 150 5

ဒေတာအတွဲတွင် အတန်း 150 နှင့် ကော်လံ 5 ခုပါရှိသည်ကို ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

ဒေတာဘောင်၏ကော်လံအမည်များကိုပြသရန် names() လုပ်ဆောင်ချက်ကိုလည်း အသုံးပြုနိုင်ပါသည်။

 #display column names
names(iris)

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"     

Iris ဒေတာအတွဲကို မြင်ယောင်ကြည့်ပါ။

ဒေတာအတွဲ၏ တန်ဖိုးများကို မြင်ယောင်နိုင်ရန် ကွက်ကွက်များ ဖန်တီးနိုင်သည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် အချို့သော variable များ၏ တန်ဖိုးများကို histogram ဖန်တီးရန် hist() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

 #create histogram of values for sepal length
hist(iris$Sepal.Length,
     col=' steelblue ',
     main=' Histogram ',
     xlab=' Length ',
     ylab=' Frequency ')

ကိန်းရှင်များ၏ အတွဲလိုက် ပေါင်းစပ်မှုတစ်ခုဖန်တီးရန် plot() လုပ်ဆောင်ချက်ကိုလည်း အသုံးပြုနိုင်သည်။

 #create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
     col=' steelblue ',
     main=' Scatterplot ',
     xlab=' Sepal Width ',
     ylab=' Sepal Length ',
     pch= 19 ) 

အုပ်စုတစ်ခုစီအတွက် boxplot တစ်ခုဖန်တီးရန် boxplot() လုပ်ဆောင်ချက်ကိုလည်း အသုံးပြုနိုင်သည်။

 #create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
        data=iris,
        main=' Sepal Length by Species ',
        xlab=' Species ',
        ylab=' Sepal Length ',
        col=' steelblue ',
        border=' black ') 

x-axis သည် မျိုးစိတ်သုံးခုကိုပြသပြီး y-axis သည် မျိုးစိတ်တစ်ခုစီအတွက် sepal အရှည်တန်ဖိုးများ ခွဲဝေမှုကိုပြသသည်။

ဤဇာတ်ကွက်အမျိုးအစားသည် အမြှေးပါးများ၏အရှည်သည် အပျိုစင်မျိုးစိတ်များအတွက် အကြီးကျယ်ဆုံးဖြစ်ပြီး setosa မျိုးစိတ်အတွက် အသေးငယ်ဆုံးဖြစ်တတ်သည်ကို လျင်မြန်စွာသိမြင်နိုင်စေပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် ဒေတာအတွဲများကို အကျဉ်းချုပ်နည်းကို အသေးစိတ်ရှင်းပြထားပါသည်။

R တွင် အကျဉ်းချုပ်ဇယားများ ဖန်တီးရန် အလွယ်ဆုံးနည်းလမ်း
R တွင် ဂဏန်းငါးလုံး၏ အကျဉ်းချုပ်ကို တွက်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်