كيفية حساب إحصائيات الملخص في r باستخدام dplyr


يمكنك استخدام بناء الجملة التالي لحساب إحصائيات الملخص لجميع المتغيرات الرقمية في إطار البيانات في R باستخدام الوظائف الموجودة في حزمة dplyr :

 library (dplyr)
library (tidyr)

df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

تأتي الدالة summarise() من الحزمة dplyr وتستخدم لحساب إحصائيات التلخيص للمتغيرات.

تأتي الدالة Pivot_longer() من حزمة Tidyr وتُستخدم لتنسيق المخرجات لتسهيل قراءتها.

يقوم بناء الجملة هذا بحساب إحصائيات الملخص التالية لكل متغير رقمي في إطار البيانات:

  • الحد الأدنى للقيمة
  • قيمة متوسطة
  • متوسط القيمة
  • الانحراف المعياري
  • النسبة المئوية الخامسة والعشرون
  • النسبة المئوية 75
  • القيمة القصوى

يوضح المثال التالي كيفية استخدام هذه الوظيفة عمليًا.

مثال: حساب إحصائيات الملخص في R باستخدام dplyr

لنفترض أن لدينا إطار البيانات التالي في R الذي يحتوي على معلومات حول لاعبي كرة السلة المختلفين:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(12, 15, 19, 14, 24, 25, 39, 34),
                 assists=c(6, 8, 8, 9, 12, 6, 8, 10),
                 rebounds=c(9, 9, 8, 10, 8, 4, 3, 3))

#view data frame
df

  team points assists rebounds
1 to 12 6 9
2 A 15 8 9
3 A 19 8 8
4 A 14 9 10
5 B 24 12 8
6 B 25 6 4
7 B 39 8 3
8 B 34 10 3

يمكننا استخدام الصيغة التالية لحساب إحصائيات الملخص لكل متغير رقمي في إطار البيانات:

 library (dplyr)
library (tidyr)

#calculate summary statistics for each numeric variable in data frame
df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

# A tibble: 3 x 8
  variable min median mean stdev q25 q75 max
             
1 points 12 21.5 22.8 9.74 14.8 27.2 39
2 assists 6 8 8.38 2.00 7.5 9.25 12
3 rebounds 3 8 6.75 2.92 3.75 9 10

  ومن النتيجة يمكننا أن نرى:

  • الحد الأدنى للقيمة في عمود النقاط هو 12 .
  • القيمة المتوسطة في عمود النقاط هي 21.5 .
  • متوسط القيمة في عمود النقاط هو 22.8 .

وما إلى ذلك وهلم جرا.

ملاحظة : في هذا المثال، استخدمنا الدالة dplyr over() . يمكنك العثور على الوثائق الكاملة لهذه الوظيفة هنا .

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ وظائف شائعة أخرى باستخدام dplyr:

كيفية تلخيص البيانات مع الاحتفاظ بجميع الأعمدة باستخدام dplyr
كيفية تلخيص أعمدة متعددة باستخدام dplyr
كيفية حساب الانحراف المعياري باستخدام dplyr

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *