كيفية حساب إحصائيات الملخص في r باستخدام dplyr

By دكتور بنيامين أندرسون قويروق‏دوغان 12, 2023 مرشد 0 Comments

يمكنك استخدام بناء الجملة التالي لحساب إحصائيات الملخص لجميع المتغيرات الرقمية في إطار البيانات في R باستخدام الوظائف الموجودة في حزمة dplyr :

 library (dplyr)
library (tidyr)

df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

تأتي الدالة summarise() من الحزمة dplyr وتستخدم لحساب إحصائيات التلخيص للمتغيرات.

تأتي الدالة Pivot_longer() من حزمة Tidyr وتُستخدم لتنسيق المخرجات لتسهيل قراءتها.

يقوم بناء الجملة هذا بحساب إحصائيات الملخص التالية لكل متغير رقمي في إطار البيانات:

الحد الأدنى للقيمة
قيمة متوسطة
متوسط القيمة
الانحراف المعياري
النسبة المئوية الخامسة والعشرون
النسبة المئوية 75
القيمة القصوى

يوضح المثال التالي كيفية استخدام هذه الوظيفة عمليًا.

مثال: حساب إحصائيات الملخص في R باستخدام dplyr

لنفترض أن لدينا إطار البيانات التالي في R الذي يحتوي على معلومات حول لاعبي كرة السلة المختلفين:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(12, 15, 19, 14, 24, 25, 39, 34),
                 assists=c(6, 8, 8, 9, 12, 6, 8, 10),
                 rebounds=c(9, 9, 8, 10, 8, 4, 3, 3))

#view data frame
df

  team points assists rebounds
1 to 12 6 9
2 A 15 8 9
3 A 19 8 8
4 A 14 9 10
5 B 24 12 8
6 B 25 6 4
7 B 39 8 3
8 B 34 10 3

يمكننا استخدام الصيغة التالية لحساب إحصائيات الملخص لكل متغير رقمي في إطار البيانات:

 library (dplyr)
library (tidyr)

#calculate summary statistics for each numeric variable in data frame
df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

# A tibble: 3 x 8
  variable min median mean stdev q25 q75 max
             
1 points 12 21.5 22.8 9.74 14.8 27.2 39
2 assists 6 8 8.38 2.00 7.5 9.25 12
3 rebounds 3 8 6.75 2.92 3.75 9 10

ومن النتيجة يمكننا أن نرى:

الحد الأدنى للقيمة في عمود النقاط هو 12 .
القيمة المتوسطة في عمود النقاط هي 21.5 .
متوسط القيمة في عمود النقاط هو 22.8 .

وما إلى ذلك وهلم جرا.

ملاحظة : في هذا المثال، استخدمنا الدالة dplyr over() . يمكنك العثور على الوثائق الكاملة لهذه الوظيفة هنا .

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ وظائف شائعة أخرى باستخدام dplyr:

كيفية تلخيص البيانات مع الاحتفاظ بجميع الأعمدة باستخدام dplyr
كيفية تلخيص أعمدة متعددة باستخدام dplyr
كيفية حساب الانحراف المعياري باستخدام dplyr

About Author

دكتور بنيامين أندرسون

مرحبًا، أنا بنجامين، أستاذ الإحصاء المتقاعد الذي تحول إلى مدرس متخصص في Statorials. بفضل خبرتي الواسعة في مجال الإحصاء، فأنا حريص على مشاركة معرفتي لتمكين الطلاب من خلال Statorials. تعرف أكثر

مثال: حساب إحصائيات الملخص في R باستخدام dplyr

مصادر إضافية

About Author

دكتور بنيامين أندرسون

Add a Comment