كيفية حساب الإحصائيات الوصفية في لغة r (مع مثال)


الإحصائيات الوصفية هي القيم التي تصف مجموعة من البيانات.

إنها تساعدنا على فهم مكان مركز مجموعة البيانات وكذلك توزيع القيم في مجموعة البيانات.

هناك وظيفتان يمكننا استخدامهما لحساب الإحصائيات الوصفية في R:

الطريقة الأولى: استخدم وظيفة الملخص ().

 summary(my_data)

تقوم الدالة Summary() بحساب القيم التالية لكل متغير في إطار البيانات في R:

  • الحد الأدنى
  • الربع الأول
  • الوسيط
  • يقصد
  • الربع الثالث
  • أقصى

الطريقة الثانية: استخدم الدالة sapply()

 sapply(my_data, sd, na. rm = TRUE )

يمكن استخدام الدالة sapply() لحساب الإحصائيات الوصفية بخلاف تلك المحسوبة بواسطة الدالة Summary() لكل متغير في إطار البيانات.

على سبيل المثال، تقوم الدالة sapply() أعلاه بحساب الانحراف المعياري لكل متغير في إطار البيانات.

يوضح المثال التالي كيفية استخدام هاتين الوظيفتين لحساب الإحصائيات الوصفية للمتغيرات في إطار البيانات في R.

مثال: حساب الإحصائيات الوصفية في R

لنفترض أن لدينا إطار البيانات التالي في R الذي يحتوي على ثلاثة متغيرات:

 #create data frame
df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12),
                 y=c(2, 2, 3, 3, 4, 5, 11, 11),
                 z=c(8, 9, 9, 9, 10, 13, 15, 17))

#view data frame
df

   X Y Z
1 1 2 8
2 4 2 9
3 4 3 9
4 5 3 9
5 6 4 10
6 7 5 13
7 10 11 15
8 12 11 17

يمكننا استخدام الدالة Summary() لحساب الإحصائيات الوصفية المختلفة لكل متغير:

 #calculate descriptive statistics for each variable
summary(df)

       xyz Min. : 1,000 Min. : 2,000 Min. : 8.00  
 1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00  
 Median: 5,500 Median: 3,500 Median: 9.50  
 Mean: 6.125 Mean: 5.125 Mean: 11.25  
 3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50  
 Max. :12,000 Max. :11,000 Max. :17.00

يمكننا أيضًا استخدام الأقواس لحساب الإحصائيات الوصفية فقط لمتغيرات محددة في إطار البيانات:

 #calculate descriptive statistics for 'x' and 'z' only
summary(df[, c(' x ', ' z ')])

       xz Min. : 1,000 Min. : 8.00  
 1st Qu.: 4.000 1st Qu.: 9.00  
 Median: 5.500 Median: 9.50  
 Mean: 6.125 Mean: 11.25  
 3rd Qu.: 7.750 3rd Qu.: 13.50  
 Max. :12,000 Max. :17.00 

يمكننا أيضًا استخدام الدالة sapply() لحساب إحصائيات وصفية محددة لكل متغير.

على سبيل المثال، يوضح الكود التالي كيفية حساب الانحراف المعياري لكل متغير:

 #calculate standard deviation for each variable
sapply(df, sd, na. rm = TRUE )

       X Y Z
3.522884 3.758324 3.327376

يمكننا أيضًا استخدام الدالة() في sapply() لحساب الإحصائيات الوصفية.

على سبيل المثال، يوضح التعليمة البرمجية التالية كيفية حساب النطاق لكل متغير:

 #calculate range for each variable
sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE ))

 X Y Z
11 9 9

أخيرًا، يمكننا إنشاء دالة معقدة تحسب الإحصائيات الوصفية ثم نستخدم هذه الدالة مع الدالة sapply() .

على سبيل المثال، يوضح التعليمة البرمجية التالية كيفية حساب وضع كل متغير في إطار البيانات:

 #define function that calculates mode
find_mode <- function (x) {
  u <- unique(x)
  tab <- tabulate(match(x, u))
  u[tab == max(tab)]
}

#calculate mode for each variable
sapply(df, find_mode)

$x
[1] 4

$y
[1] 2 3 11

$z
[1] 9

ومن النتيجة يمكننا أن نرى:

  • وضع المتغير x هو 4 .
  • وضع المتغير y هو 2 و 3 و 11 (نظرًا لأن كل من هذه القيم تظهر بشكل متكرر)
  • وضع المتغير z هو 9 .

باستخدام الدالتين Summary() و sapply() ، يمكننا حساب أي إحصائيات وصفية نريدها لكل متغير في إطار البيانات.

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في R:

كيفية إنشاء جداول ملخصة في R
كيفية العثور على المدى الربيعي في R
كيفية إزالة القيم المتطرفة في R

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *