دليل كامل لمجموعة بيانات iris في r
مجموعة بيانات القزحية عبارة عن مجموعة بيانات متكاملة في R تحتوي على قياسات على 4 سمات مختلفة (بالسنتيمتر) لـ 50 زهرة من 3 أنواع مختلفة.
يشرح هذا البرنامج التعليمي كيفية استكشاف وتلخيص مجموعة بيانات في لغة R، باستخدام مجموعة بيانات القزحية كمثال.
ذات صلة: دليل كامل لمجموعة بيانات mtcars في R
تحميل مجموعة بيانات القزحية
نظرًا لأن مجموعة بيانات القزحية هي مجموعة بيانات مضمنة في لغة R، فيمكننا تحميلها باستخدام الأمر التالي:
data(iris)
يمكننا إلقاء نظرة على الصفوف الستة الأولى من مجموعة البيانات باستخدام الدالة head() :
#view first six rows of iris dataset
head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
تلخيص مجموعة بيانات إيريس
يمكننا استخدام الدالة Summary() لتلخيص كل متغير في مجموعة البيانات بسرعة:
#summarize iris dataset
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300
Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199
3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800
Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500
Species
setosa:50
versicolor:50
virginica :50
لكل من المتغيرات العددية يمكننا رؤية المعلومات التالية:
- الحد الأدنى : الحد الأدنى للقيمة.
- السؤال الأول : قيمة الربع الأول (المئوية الخامسة والعشرون).
- الوسيط : القيمة المتوسطة.
- المتوسط : القيمة المتوسطة.
- السؤال الثالث : قيمة الربع الثالث (المئوية الخامسة والسبعون).
- الحد الأقصى : القيمة القصوى.
بالنسبة للمتغير التصنيفي الوحيد في مجموعة البيانات (الأنواع)، نرى عددًا متكررًا لكل قيمة:
- سيتوسا : هذا النوع موجود 50 مرة.
- المبرقشة : يتكرر هذا النوع 50 مرة.
- فيرجينيكا : هذا النوع موجود 50 مرة.
يمكننا استخدام الدالة dim() للحصول على أبعاد مجموعة البيانات من حيث عدد الصفوف والأعمدة:
#display rows and columns
dim(iris)
[1] 150 5
يمكننا أن نرى أن مجموعة البيانات تحتوي على 150 صفًا و 5 أعمدة.
يمكننا أيضًا استخدام وظيفة الأسماء () لعرض أسماء أعمدة إطار البيانات:
#display column names
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
تصور مجموعة البيانات القزحية
يمكننا أيضًا إنشاء مخططات لتصور قيم مجموعة البيانات.
على سبيل المثال، يمكننا استخدام الدالة hist() لإنشاء رسم بياني لقيم متغير معين:
#create histogram of values for sepal length
hist(iris$Sepal.Length,
col=' steelblue ',
main=' Histogram ',
xlab=' Length ',
ylab=' Frequency ')
يمكننا أيضًا استخدام الدالة مؤامرة () لإنشاء مخطط مبعثر لأي مجموعة زوجية من المتغيرات:
#create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
col=' steelblue ',
main=' Scatterplot ',
xlab=' Sepal Width ',
ylab=' Sepal Length ',
pch= 19 )
يمكننا أيضًا استخدام الدالة boxplot() لإنشاء boxplot لكل مجموعة:
#create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
data=iris,
main=' Sepal Length by Species ',
xlab=' Species ',
ylab=' Sepal Length ',
col=' steelblue ',
border=' black ')
يعرض المحور السيني الأنواع الثلاثة ويعرض المحور الصادي توزيع قيم طول الكأس لكل نوع.
يتيح لنا هذا النوع من المخططات أن نرى بسرعة أن طول الكأسية يميل إلى أن يكون الأكبر بالنسبة لأنواع فيرجينيكا والأصغر بالنسبة لأنواع سيتوسا.
مصادر إضافية
تشرح البرامج التعليمية التالية بمزيد من التفصيل كيفية تلخيص مجموعات البيانات في R:
أسهل طريقة لإنشاء جداول تلخيصية في R
كيفية حساب ملخص خمسة أرقام في R