أسهل طريقة لإنشاء جداول تلخيصية في r
أسهل طريقة لإنشاء جداول ملخصة في لغة R هي استخدام الدالتين description() و descriptionBy() من المكتبة النفسية .
library (psych) #create summary table describe(df) #create summary table, grouped by a specific variable describeBy(df, group=df$var_name)
توضح الأمثلة التالية كيفية استخدام هذه الوظائف عمليًا.
مثال 1: إنشاء جدول ملخص أساسي
لنفترض أن لدينا إطار البيانات التالي في R:
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'), points=c(15, 22, 29, 41, 30, 11, 19), rebounds=c(7, 8, 6, 6, 7, 9, 13), steals=c(1, 1, 2, 3, 5, 7, 5)) #view data frame df team points rebounds steals 1 to 15 7 1 2 A 22 8 1 3 B 29 6 2 4 B 41 6 3 5 C 30 7 5 6 C 11 9 7 7 C 19 13 5
يمكننا استخدام الدالة description() لإنشاء جدول ملخص لكل متغير في إطار البيانات:
library (psych) #create summary table describe(df) vars n mean sd median trimmed mad min max range skew kurtosis team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90 points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41 rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38 steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73 se team* 0.34 points 3.87 rebounds 0.93 steals 0.87
وإليك كيفية تفسير كل قيمة في النتيجة:
- فار : رقم العمود
- n : عدد الحالات الصحيحة
- المتوسط : القيمة المتوسطة
- الوسيط : القيمة المتوسطة
- قلص : المتوسط قلص (افتراضيا، تتم إزالة 10٪ من الملاحظات في كل نهاية)
- mad : الانحراف المتوسط المطلق (من الوسيط)
- الحد الأدنى : الحد الأدنى للقيمة
- الحد الأقصى : القيمة القصوى
- النطاق : نطاق القيم (الحد الأقصى – الحد الأدنى)
- انحراف : عدم التماثل
- التفرطح : التسطيح
- حد ذاته : الخطأ القياسي
ومن المهم ملاحظة أن أي متغير يحمل علامة النجمة (*) هو متغير فئوي أو منطقي تم تحويله إلى متغير رقمي بقيم تمثل الترتيب العددي للقيم.
في مثالنا، تم تحويل متغير “الفريق” إلى متغير رقمي، لذا يجب ألا نفسر إحصائيات الملخص المقابلة حرفيًا.
لاحظ أيضًا أنه يمكنك استخدام الوسيطة fast=TRUE لحساب إحصائيات الملخص الأكثر شيوعًا فقط:
#create smaller summary table describe(df, fast= TRUE ) vars n mean sd min max range se team 1 7 NaN NA Inf -Inf -Inf NA points 2 7 23.86 10.24 11 41 30 3.87 rebounds 3 7 8.00 2.45 6 13 7 0.93 steals 4 7 3.43 2.30 1 7 6 0.87
يمكننا أيضًا اختيار حساب الإحصائيات الموجزة لمتغيرات معينة في إطار البيانات فقط:
#create summary table for just 'points' and 'rebounds' columns describe(df[, c(' points ', ' rebounds ')], fast= TRUE ) vars n mean sd min max range se points 1 7 23.86 10.24 11 41 30 3.87 rebounds 2 7 8.00 2.45 6 13 7 0.93
المثال 2: إنشاء جدول ملخص، مجمعًا حسب متغير محدد
يوضح التعليمة البرمجية التالية كيفية استخدام الدالة descriptionBy() لإنشاء جدول ملخص لإطار البيانات، مجمعة حسب المتغير “team”:
#create summary table, grouped by 'team' variable describeBy(df, group=df$team, fast= TRUE ) Descriptive statistics by group group: A vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 18.5 4.95 15 22 7 3.5 rebounds 3 2 7.5 0.71 7 8 1 0.5 steals 4 2 1.0 0.00 1 1 0 0.0 -------------------------------------------------- ---------- group: B vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 35.0 8.49 29 41 12 6.0 rebounds 3 2 6.0 0.00 6 6 0 0.0 steals 4 2 2.5 0.71 2 3 1 0.5 -------------------------------------------------- ---------- group: C vars n mean sd min max range se team 1 3 NaN NA Inf -Inf -Inf NA points 2 3 20.00 9.54 11 30 19 5.51 rebounds 3 3 9.67 3.06 7 13 6 1.76 steals 4 3 5.67 1.15 5 7 2 0.67
يعرض الإخراج إحصائيات ملخصة لكل فريق من الفرق الثلاثة في إطار البيانات.
مصادر إضافية
كيفية حساب ملخص خمسة أرقام في R
كيفية حساب المتوسط لكل مجموعة في R
كيفية حساب المبلغ حسب المجموعة في R
كيفية حساب التباين في R
كيفية إنشاء مصفوفة التغاير في R