دليل كامل لمجموعة بيانات iris في r


مجموعة بيانات القزحية عبارة عن مجموعة بيانات متكاملة في R تحتوي على قياسات على 4 سمات مختلفة (بالسنتيمتر) لـ 50 زهرة من 3 أنواع مختلفة.

يشرح هذا البرنامج التعليمي كيفية استكشاف وتلخيص مجموعة بيانات في لغة R، باستخدام مجموعة بيانات القزحية كمثال.

ذات صلة: دليل كامل لمجموعة بيانات mtcars في R

تحميل مجموعة بيانات القزحية

نظرًا لأن مجموعة بيانات القزحية هي مجموعة بيانات مضمنة في لغة R، فيمكننا تحميلها باستخدام الأمر التالي:

 data(iris)

يمكننا إلقاء نظرة على الصفوف الستة الأولى من مجموعة البيانات باستخدام الدالة head() :

 #view first six rows of iris dataset
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

تلخيص مجموعة بيانات إيريس

يمكننا استخدام الدالة Summary() لتلخيص كل متغير في مجموعة البيانات بسرعة:

 #summarize iris dataset
summary(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   
 Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100  
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300  
 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300  
 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199  
 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800  
 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500  
       Species  
 setosa:50  
 versicolor:50  
 virginica :50

لكل من المتغيرات العددية يمكننا رؤية المعلومات التالية:

  • الحد الأدنى : الحد الأدنى للقيمة.
  • السؤال الأول : قيمة الربع الأول (المئوية الخامسة والعشرون).
  • الوسيط : القيمة المتوسطة.
  • المتوسط : القيمة المتوسطة.
  • السؤال الثالث : قيمة الربع الثالث (المئوية الخامسة والسبعون).
  • الحد الأقصى : القيمة القصوى.

بالنسبة للمتغير التصنيفي الوحيد في مجموعة البيانات (الأنواع)، نرى عددًا متكررًا لكل قيمة:

  • سيتوسا : هذا النوع موجود 50 مرة.
  • المبرقشة : يتكرر هذا النوع 50 مرة.
  • فيرجينيكا : هذا النوع موجود 50 مرة.

يمكننا استخدام الدالة dim() ‎ للحصول على أبعاد مجموعة البيانات من حيث عدد الصفوف والأعمدة:

 #display rows and columns
dim(iris)

[1] 150 5

يمكننا أن نرى أن مجموعة البيانات تحتوي على 150 صفًا و 5 أعمدة.

يمكننا أيضًا استخدام وظيفة الأسماء () لعرض أسماء أعمدة إطار البيانات:

 #display column names
names(iris)

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"     

تصور مجموعة البيانات القزحية

يمكننا أيضًا إنشاء مخططات لتصور قيم مجموعة البيانات.

على سبيل المثال، يمكننا استخدام الدالة hist() لإنشاء رسم بياني لقيم متغير معين:

 #create histogram of values for sepal length
hist(iris$Sepal.Length,
     col=' steelblue ',
     main=' Histogram ',
     xlab=' Length ',
     ylab=' Frequency ')

يمكننا أيضًا استخدام الدالة مؤامرة () لإنشاء مخطط مبعثر لأي مجموعة زوجية من المتغيرات:

 #create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
     col=' steelblue ',
     main=' Scatterplot ',
     xlab=' Sepal Width ',
     ylab=' Sepal Length ',
     pch= 19 ) 

يمكننا أيضًا استخدام الدالة boxplot() لإنشاء boxplot لكل مجموعة:

 #create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
        data=iris,
        main=' Sepal Length by Species ',
        xlab=' Species ',
        ylab=' Sepal Length ',
        col=' steelblue ',
        border=' black ') 

يعرض المحور السيني الأنواع الثلاثة ويعرض المحور الصادي توزيع قيم طول الكأس لكل نوع.

يتيح لنا هذا النوع من المخططات أن نرى بسرعة أن طول الكأسية يميل إلى أن يكون الأكبر بالنسبة لأنواع فيرجينيكا والأصغر بالنسبة لأنواع سيتوسا.

مصادر إضافية

تشرح البرامج التعليمية التالية بمزيد من التفصيل كيفية تلخيص مجموعات البيانات في R:

أسهل طريقة لإنشاء جداول تلخيصية في R
كيفية حساب ملخص خمسة أرقام في R

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *