วิธีที่ง่ายที่สุดในการสร้างตารางสรุปใน r


วิธีที่ง่ายที่สุดในการสร้างตารางสรุปใน R คือการใช้ฟังก์ชัน อธิบาย() และ อธิบายBy() จากไลบรารี จิต

 library (psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันเหล่านี้ในทางปฏิบัติ

ตัวอย่างที่ 1: สร้างตารางสรุปพื้นฐาน

สมมติว่าเรามี data frame ต่อไปนี้ใน R:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1 to 15 7 1
2 A 22 8 1
3 B 29 6 2
4 B 41 6 3
5 C 30 7 5
6 C 11 9 7
7 C 19 13 5

เราสามารถใช้ฟังก์ชัน อธิบาย() เพื่อสร้างตารางสรุปสำหรับแต่ละตัวแปรในกรอบข้อมูล:

 library (psych)

#create summary table
describe(df)

         vars n mean sd median trimmed mad min max range skew kurtosis
team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90
points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41
rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38
steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73
           se
team* 0.34
points 3.87
rebounds 0.93
steals 0.87

ต่อไปนี้เป็นวิธีตีความแต่ละค่าในผลลัพธ์:

  • vars : หมายเลขคอลัมน์
  • n : จำนวนกรณีที่ถูกต้อง
  • เฉลี่ย : มูลค่าเฉลี่ย
  • ค่า มัธยฐาน : ค่ามัธยฐาน
  • ตัดออก : ค่าเฉลี่ยที่ตัดออก (โดยค่าเริ่มต้น 10% ของการสังเกตจะถูกลบออกที่ปลายแต่ละด้าน)
  • mad : ส่วนเบี่ยงเบนค่ามัธยฐานสัมบูรณ์ (จากค่ามัธยฐาน)
  • min : ค่าต่ำสุด
  • สูงสุด : ค่าสูงสุด
  • range : ช่วงของค่า (สูงสุด – นาที)
  • เบ้ : ความไม่สมดุล
  • ความโด่ง : แบน
  • se : ข้อผิดพลาดมาตรฐาน

สิ่งสำคัญคือต้องสังเกตว่าตัวแปรใด ๆ ที่มีเครื่องหมายดอกจัน (*) เป็นตัวแปรเชิงหมวดหมู่หรือเชิงตรรกะที่ถูกแปลงเป็นตัวแปรตัวเลขที่มีค่าที่แสดงถึงลำดับตัวเลขของค่า

ในตัวอย่างของเรา ตัวแปร “ทีม” ถูกแปลงเป็นตัวแปรตัวเลข ดังนั้นเราจึงไม่ควรตีความสถิติสรุปที่เกี่ยวข้องตามตัวอักษร

โปรดทราบว่าคุณสามารถใช้อาร์กิวเมนต์ fast=TRUE เพื่อคำนวณเฉพาะสถิติสรุปที่พบบ่อยที่สุดได้:

 #create smaller summary table
describe(df, fast= TRUE )

         vars n mean sd min max range se
team 1 7 NaN NA Inf -Inf -Inf NA
points 2 7 23.86 10.24 11 41 30 3.87
rebounds 3 7 8.00 2.45 6 13 7 0.93
steals 4 7 3.43 2.30 1 7 6 0.87

นอกจากนี้เรายังสามารถเลือกคำนวณเฉพาะสถิติสรุปสำหรับตัวแปรบางตัวในกรอบข้อมูลได้:

 #create summary table for just 'points' and 'rebounds' columns
describe(df[, c(' points ', ' rebounds ')], fast= TRUE )

         vars n mean sd min max range se
points 1 7 23.86 10.24 11 41 30 3.87
rebounds 2 7 8.00 2.45 6 13 7 0.93

ตัวอย่างที่ 2: สร้างตารางสรุป จัดกลุ่มตามตัวแปรเฉพาะ

รหัสต่อไปนี้แสดงวิธีการใช้ฟังก์ชัน descriptionBy() เพื่อสร้างตารางสรุปสำหรับกรอบข้อมูล ซึ่งจัดกลุ่มตามตัวแปร “ทีม”:

 #create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast= TRUE )

 Descriptive statistics by group 
group: A
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 18.5 4.95 15 22 7 3.5
rebounds 3 2 7.5 0.71 7 8 1 0.5
steals 4 2 1.0 0.00 1 1 0 0.0
-------------------------------------------------- ---------- 
group: B
         vars n mean sd min max range se
team 1 2 NaN NA Inf -Inf -Inf NA
points 2 2 35.0 8.49 29 41 12 6.0
rebounds 3 2 6.0 0.00 6 6 0 0.0
steals 4 2 2.5 0.71 2 3 1 0.5
-------------------------------------------------- ---------- 
group: C
         vars n mean sd min max range se
team 1 3 NaN NA Inf -Inf -Inf NA
points 2 3 20.00 9.54 11 30 19 5.51
rebounds 3 3 9.67 3.06 7 13 6 1.76
steals 4 3 5.67 1.15 5 7 2 0.67

ผลลัพธ์จะแสดงสถิติสรุปสำหรับแต่ละทีมจากทั้งสามทีมในกรอบข้อมูล

แหล่งข้อมูลเพิ่มเติม

วิธีการคำนวณผลสรุปของตัวเลขห้าตัวใน R
วิธีคำนวณค่าเฉลี่ยต่อกลุ่มใน R
วิธีคำนวณผลรวมตามกลุ่มใน R
วิธีการคำนวณความแปรปรวนใน R
วิธีสร้างเมทริกซ์ความแปรปรวนร่วมใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *