Socs: ตัวย่อที่มีประโยชน์ในการอธิบายการแจกแจง


ในทางสถิติ เรามักต้องการทำความเข้าใจว่าชุดข้อมูลมีการกระจายอย่างไร โดยเฉพาะอย่างยิ่ง มีสี่สิ่งที่ควรรู้เกี่ยวกับการแจกแจง:

1 . รูปร่าง

  • การกระจายสมมาตรหรือเบ้ไปด้านใดด้านหนึ่ง?
  • การกระจายเป็นแบบยูนิโมดัล (หนึ่งพีค) หรือ ไบโมดัล (สองพีค) หรือไม่?

2. ค่าผิดปกติ

  • มีค่าผิดปกติในการแจกแจงหรือไม่?

3. ศูนย์

  • ค่าเฉลี่ย ค่ามัธยฐาน และรูปแบบการกระจายคืออะไร?

4.การแพร่กระจาย

  • พิสัย พิสัยระหว่างควอร์ไทล์ ค่าเบี่ยงเบนมาตรฐาน และความแปรปรวนของการแจกแจงคือเท่าใด

SOCS เป็นตัวย่อที่มีประโยชน์ซึ่งเราสามารถใช้เพื่อจดจำสี่สิ่งนี้ แปลว่า “รูปร่าง, ค่าผิดปกติ, ศูนย์กลาง, การแพร่กระจาย”

มาดูตัวอย่างง่ายๆ ของวิธีใช้ SOCS เพื่ออธิบายการแจกแจงกัน

ตัวอย่าง: วิธีใช้ SOCS เพื่ออธิบายการแจกแจง

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งแสดงความสูงของตัวอย่างของพืช 20 ชนิดที่แตกต่างกัน

ต่อไปนี้คือวิธีที่เราสามารถใช้ SOCS เพื่ออธิบายการกระจายค่าข้อมูลนี้

รูปร่าง

อันดับแรก เราต้องการอธิบายรูปร่างของการกระจายตัว

วิธีที่เป็นประโยชน์ในการแสดงภาพรูปร่างของการแจกแจงคือการสร้างฮิสโตแกรม ซึ่งแสดงความถี่ของแต่ละค่าในชุดข้อมูล:

การกระจายสมมาตรหรือเบ้ไปด้านใดด้านหนึ่ง?   จากฮิสโตแกรมเราจะเห็นว่าการกระจายตัวมีความสมมาตรโดยประมาณ กล่าวอีกนัยหนึ่งค่านิยมจะไม่ลำเอียงไม่ทางใดก็ทางหนึ่ง

การกระจายเป็นแบบยูนิโมดัล (หนึ่งพีค) หรือไบโมดัล (สองพีค) หรือไม่? การกระจายเป็นแบบยูนิโมด มียอดอยู่ที่ค่า “7”

ค่าผิดปกติ

ต่อไป เราต้องการตรวจสอบว่ามีค่าผิดปกติในชุดข้อมูลหรือไม่ จากฮิสโตแกรม เราสามารถตรวจสอบการแจกแจงด้วยสายตาและเห็นว่า 22 อาจเป็นค่าผิดปกติ:

ตัวอย่างฮิสโตแกรมโดยใช้ SOCS ในสถิติ

วิธีทั่วไปในการกำหนดค่าผิดปกติอย่างเป็นทางการคือค่าใดๆ ที่เป็น 1.5 เท่าของช่วงระหว่างควอไทล์ที่อยู่เหนือควอไทล์ที่ 3 หรือต่ำกว่าควอไทล์ที่ 1

เมื่อใช้เครื่องคำนวณช่วงระหว่างควอไทล์ เราสามารถป้อนค่าข้อมูลดิบ 20 ค่าและดูว่าควอไทล์ที่สามคือ 9 ช่วงระหว่างควอไทล์คือ 3 ดังนั้นค่าใดๆ ที่มากกว่า 9 + (1.5*3) = 13.5 ถือเป็นค่าผิดปกติ ตามคำนิยาม

เนื่องจาก 22 มากกว่า 13.5 เราจึงสามารถประกาศให้ 22 มีค่าผิดปกติได้

ศูนย์

จากนั้นเราต้องการอธิบายว่าศูนย์กลางการกระจายอยู่ที่ใด ตัวชี้วัดทั่วไปสามประการของแนวโน้มจากศูนย์กลาง ที่เราสามารถใช้ได้คือค่าเฉลี่ย ค่ามัธยฐาน และโหมด

ค่าเฉลี่ย: นี่คือค่าเฉลี่ยของการแจกแจง เราพบสิ่งนี้โดยการบวกค่าแต่ละค่าทั้งหมดแล้วหารด้วยจำนวนค่าทั้งหมด:

ค่าเฉลี่ย = (8+4+6+7+7+6+7+8+6+11+8+22+10+9+9+7+5+7+6+4) / 20 = 7.85

ค่ามัธยฐาน: นี่คือค่า “เฉลี่ย” ของการแจกแจง เราพบสิ่งนี้โดยการเรียงลำดับค่าทั้งหมดจากน้อยไปมากแล้วระบุค่ามัธยฐาน กลายเป็น 7 .

4, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7 , 7, 8 , 8, 8, 9, 9, 10, 11, 22

โหมด: นี่คือค่าที่ปรากฏบ่อยที่สุด กลายเป็น 7 .

การแพร่กระจาย

ต่อไป เราต้องการอธิบายการกระจายตัวของค่าในการแจกแจง การวัดการกระจายทั่วไปสี่ประการที่เราสามารถใช้ได้คือ พิสัย พิสัยระหว่างควอไรล์ ค่าเบี่ยงเบนมาตรฐาน และความแปรปรวน

ช่วง: นี่คือความแตกต่างระหว่างค่าที่ใหญ่ที่สุดและน้อยที่สุดในชุดข้อมูล นี่กลายเป็น 22 – 4 = 18

ช่วงระหว่างควอไทล์: วัดความกว้างตรงกลาง 50% ของค่าข้อมูล เมื่อป้อนข้อมูลดิบ 20 ค่าลงในเครื่องคำนวณช่วงระหว่างควอไทล์ เราจะเห็นว่ามีค่าเท่ากับ 3

ส่วนเบี่ยงเบนมาตรฐาน: นี่คือการวัดการกระจายตัวของค่าข้อมูลโดยเฉลี่ย เมื่อป้อนข้อมูลดิบ 20 ค่าลงในเครื่องคำนวณความแปรปรวนและค่าเบี่ยงเบนมาตรฐาน เราจะเห็นว่าค่าเบี่ยงเบนมาตรฐานเท่ากับ 3.69

ความแปรปรวน: นี่เป็นเพียงค่าเบี่ยงเบนมาตรฐาน กำลังสอง ซึ่งเท่ากับ 3.69 2 = 13.63

บทสรุป

การใช้ SOCS เป็นแนวทาง เราสามารถอธิบายการกระจายความสูงของพืชได้ดังนี้

  • การกระจายเป็นแบบยูนิโมดัลและสมมาตร หมายความว่ามียอดเพียงจุดเดียวและไม่เบ้ไปด้านใดด้านหนึ่ง
  • การแจกแจงมีค่าผิดปกติหนึ่งค่า: 22
  • การแจกแจงมีค่าเฉลี่ย 7.85 มัธยฐาน 7 และโหมด 7
  • การแจกแจงมีช่วง 18 ช่วงระหว่างควอไทล์อยู่ที่ 3 ค่าเบี่ยงเบนมาตรฐาน 3.69 และความแปรปรวน 13.63

โปรดทราบว่าเราสามารถใช้ SOCS เพื่ออธิบายการแจกแจงใดๆ ซึ่งเป็นวิธีที่มีประโยชน์สำหรับเราในการทำความเข้าใจรูปร่างของการแจกแจงอย่างถ่องแท้ ไม่ว่าจะมีค่าผิดปกติ โดยที่จุดศูนย์กลางอยู่ที่ประมาณ และวิธีการกระจายค่าข้อมูล เป็น.

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *