كيفية حساب ملخص خمسة أرقام في r (مع أمثلة)


الملخص المكون من خمسة أرقام هو وسيلة لتلخيص مجموعة من البيانات باستخدام القيم الخمس التالية:

  • الحد الأدنى
  • الربع الأول
  • المتوسط
  • الربع الثالث
  • الحد الأقصى

يعد الملخص المكون من خمسة أرقام مفيدًا لأنه يقدم ملخصًا موجزًا لتوزيع البيانات على النحو التالي:

  • فهو يخبرنا بمكان القيمة المتوسطة ، باستخدام الوسيط.
  • فهو يخبرنا بتوزيع البيانات باستخدام الربعين الأول والثالث.
  • فهو يخبرنا بنطاق البيانات، باستخدام الحد الأدنى والحد الأقصى.

إن أبسط طريقة لحساب ملخص مكون من خمسة أرقام لمجموعة بيانات في R هي استخدام الدالة fivenum() من قاعدة R:

 fivenum(data)

يوضح المثال التالي كيفية استخدام بناء الجملة هذا عمليًا.

مثال 1: ملخص مكون من خمسة أرقام لمتجه

يوضح التعليمة البرمجية التالية كيفية حساب ملخص الأرقام الخمسة لمتجه رقمي في R:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

ومن النتيجة يمكننا أن نرى:

  • الحد الأدنى: 4
  • الربع الأول: 7
  • المتوسط: 12
  • الربع الثالث: 15
  • الحد الأقصى: 22

يمكننا تصور الملخص المكون من خمسة أرقام بسرعة عن طريق إنشاء مخطط boxplot:

 boxplot(data)

[1] 4 7 12 15 22 

إليك كيفية تفسير boxplot:

  • يمثل الخط الموجود أسفل الرسم البياني الحد الأدنى للقيمة ( 4 ).
  • يمثل الخط الموجود أسفل المربع الربع الأول ( 7 ).
  • يمثل الخط الموجود في منتصف المربع الوسيط ( 12 ).
  • يمثل الخط الموجود أعلى المربع الربع الثالث ( 15 ).
  • يمثل الخط الموجود أعلى الرسم البياني القيمة القصوى ( 22 ).

مثال 2: ملخص مكون من خمسة أرقام لعمود في إطار بيانات

يوضح التعليمة البرمجية التالية كيفية حساب الملخص المكون من خمسة أرقام لعمود معين في إطار بيانات:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

مثال 3: ملخص مكون من خمسة أرقام لأعمدة متعددة

يوضح التعليمة البرمجية التالية كيفية استخدام الدالة sapply() لحساب الملخص المكون من خمسة أرقام لأعمدة متعددة في إطار البيانات في نفس الوقت:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

ذات صلة: دليل لتطبيق () وlapply () وsapply () وtapply () في R

مصادر إضافية

كيفية إنشاء جداول ملخصة في R
كيفية العثور على النطاق في R
كيفية إزالة القيم المتطرفة في R

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *