أسهل طريقة لإنشاء جداول تلخيصية في r


أسهل طريقة لإنشاء جداول ملخصة في لغة R هي استخدام الدالتين description() و descriptionBy() من المكتبة النفسية .

 library (psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

توضح الأمثلة التالية كيفية استخدام هذه الوظائف عمليًا.

مثال 1: إنشاء جدول ملخص أساسي

لنفترض أن لدينا إطار البيانات التالي في R:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1 to 15 7 1
2 A 22 8 1
3 B 29 6 2
4 B 41 6 3
5 C 30 7 5
6 C 11 9 7
7 C 19 13 5

يمكننا استخدام الدالة description() لإنشاء جدول ملخص لكل متغير في إطار البيانات:

 library (psych)

#create summary table
describe(df)

         vars n mean sd median trimmed mad min max range skew kurtosis
team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90
points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41
rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38
steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73
           se
team* 0.34
points 3.87
rebounds 0.93
steals 0.87

وإليك كيفية تفسير كل قيمة في النتيجة:

  • فار : رقم العمود
  • n : عدد الحالات الصحيحة
  • المتوسط : القيمة المتوسطة
  • الوسيط : القيمة المتوسطة
  • قلص : المتوسط قلص (افتراضيا، تتم إزالة 10٪ من الملاحظات في كل نهاية)
  • mad : الانحراف المتوسط المطلق (من الوسيط)
  • الحد الأدنى : الحد الأدنى للقيمة
  • الحد الأقصى : القيمة القصوى
  • النطاق : نطاق القيم (الحد الأقصى – الحد الأدنى)
  • انحراف : عدم التماثل
  • التفرطح : التسطيح
  • حد ذاته : الخطأ القياسي

ومن المهم ملاحظة أن أي متغير يحمل علامة النجمة (*) هو متغير فئوي أو منطقي تم تحويله إلى متغير رقمي بقيم تمثل الترتيب العددي للقيم.

في مثالنا، تم تحويل متغير “الفريق” إلى متغير رقمي، لذا يجب ألا نفسر إحصائيات الملخص المقابلة حرفيًا.

لاحظ أيضًا أنه يمكنك استخدام الوسيطة fast=TRUE لحساب إحصائيات الملخص الأكثر شيوعًا فقط:

 #create smaller summary table
describe(df, fast= TRUE )

         vars n mean sd min max range se
team 1 7 NaN NA Inf -Inf -Inf NA
points 2 7 23.86 10.24 11 41 30 3.87
rebounds 3 7 8.00 2.45 6 13 7 0.93
steals 4 7 3.43 2.30 1 7 6 0.87

يمكننا أيضًا اختيار حساب الإحصائيات الموجزة لمتغيرات معينة في إطار البيانات فقط:

 #create summary table for just 'points' and 'rebounds' columns
describe(df[, c(' points ', ' rebounds ')], fast= TRUE )

         vars n mean sd min max range se
points 1 7 23.86 10.24 11 41 30 3.87
rebounds 2 7 8.00 2.45 6 13 7 0.93

المثال 2: إنشاء جدول ملخص، مجمعًا حسب متغير محدد

يوضح التعليمة البرمجية التالية كيفية استخدام الدالة descriptionBy() لإنشاء جدول ملخص لإطار البيانات، مجمعة حسب المتغير “team”:

 #create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast= TRUE )

 Descriptive statistics by group 
group: A
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 18.5 4.95 15 22 7 3.5
rebounds 3 2 7.5 0.71 7 8 1 0.5
steals 4 2 1.0 0.00 1 1 0 0.0
-------------------------------------------------- ---------- 
group: B
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 35.0 8.49 29 41 12 6.0
rebounds 3 2 6.0 0.00 6 6 0 0.0
steals 4 2 2.5 0.71 2 3 1 0.5
-------------------------------------------------- ---------- 
group: C
         vars n mean sd min max range se
team 1 3 NaN NA Inf -Inf -Inf NA
points 2 3 20.00 9.54 11 30 19 5.51
rebounds 3 3 9.67 3.06 7 13 6 1.76
steals 4 3 5.67 1.15 5 7 2 0.67

يعرض الإخراج إحصائيات ملخصة لكل فريق من الفرق الثلاثة في إطار البيانات.

مصادر إضافية

كيفية حساب ملخص خمسة أرقام في R
كيفية حساب المتوسط لكل مجموعة في R
كيفية حساب المبلغ حسب المجموعة في R
كيفية حساب التباين في R
كيفية إنشاء مصفوفة التغاير في R

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *