การกระจายแบบเปิดคืออะไร?


ในสถิติ การแจกแจงแบบเปิด คือการแจกแจงความถี่ที่เปิดคลาส (หรือ “ถังขยะ”) อย่างน้อยหนึ่งคลาส

ตัวอย่างเช่น การแจกแจงความถี่ต่อไปนี้แสดงถึงการแจกแจงแบบเปิดซึ่งมีคลาสที่เล็กที่สุดเปิดอยู่:

และการแจกแจงความถี่ต่อไปนี้แสดงการแจกแจงแบบเปิดซึ่งคลาสที่ใหญ่ที่สุดเปิดอยู่:

ในทางกลับกัน การแจกแจงแบบปิดคือการแจกแจงความถี่แต่ละคลาสมีขีดจำกัดบนและล่าง ดังตัวอย่างต่อไปนี้:

อะไรทำให้เกิดการแจกแจงแบบเปิด?

การแจกแจงแบบเปิดมักเป็นผลมาจากการที่นักวิจัยเลือกที่จะรวบรวมข้อมูลในลักษณะที่ทำให้คลาสใดคลาสหนึ่งกลายเป็นเปิด

ตัวอย่างเช่น สมมติว่านักวิจัยสำรวจผู้อยู่อาศัยในเมืองหนึ่งและถามพวกเขาเกี่ยวกับรายได้ต่อปีของครัวเรือน

ผู้วิจัยอาจเลือกที่จะให้คำตอบที่กว้างที่สุดที่เป็นไปได้คือ “>100,000 ดอลลาร์” เพราะพวกเขารู้ว่าผู้มีรายได้สูงอาจไม่สบายใจที่จะแบ่งปันรายได้ที่พวกเขาได้รับหากมากกว่า 100,000 ดอลลาร์อย่างมีนัยสำคัญ

ในทางกลับกัน ผู้วิจัยอาจเลือกที่จะให้คำตอบที่สั้นที่สุดเท่าที่จะเป็นไปได้ เพราะเขาหรือเธอรู้ดีว่าผู้อยู่อาศัยที่มีรายได้น้อยมากจะไม่สบายใจที่จะแบ่งปันสิ่งที่พวกเขามีรายได้น้อยเช่นกัน

โดยสรุป นักวิจัยมักจะรวมหลักสูตรแบบเปิดไว้ในแบบสำรวจ เนื่องจากพวกเขาต้องการเพิ่มจำนวนคนที่รู้สึกสบายใจที่จะตอบคำถามในการสำรวจให้มากที่สุด

ปัญหาเกี่ยวกับการแจกแจงแบบเปิด

ปัญหาของการแจกแจงแบบเปิดคือข้อมูลจริงถูก เซ็นเซอร์ กล่าวอีกนัยหนึ่ง เราสามารถทราบจำนวนผู้ที่มีรายได้มากกว่า 100,000 ดอลลาร์ในเมืองหนึ่งๆ แต่จริงๆ แล้ว เราไม่ทราบรายได้ต่อปีที่แน่นอนของพวกเขา

อาจเป็นไปได้ว่าบางคนมีรายได้ 150,000 ดอลลาร์ 250,000 ดอลลาร์ 500,000 ดอลลาร์ หรือมากกว่านั้น แต่เราไม่ทราบ เนื่องจากคนเหล่านี้แต่ละคนไม่สามารถระบุได้ว่าพวกเขามีรายได้ “>100,000 ดอลลาร์” ใน “การสอบสวน”

เนื่องจากข้อมูลถูกเซ็นเซอร์ในการแจกแจงแบบเปิด เราจึงไม่สามารถคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่แน่นอนของค่าในชุดข้อมูลได้ เนื่องจากเราไม่สามารถเข้าถึงค่าทั้งหมดในข้อมูลดิบได้

วิธีการวิเคราะห์การกระจายตัวแบบเปิด

เนื่องจากเราไม่สามารถคำนวณค่าเฉลี่ยที่แน่นอนของการแจกแจงแบบเปิดได้ เราจึงมักใช้ ค่ามัธยฐาน เป็นตัววัด “ศูนย์กลาง” ของชุดข้อมูล

โปรดจำไว้ว่าค่ามัธยฐานแสดงถึงค่ากลางของชุดข้อมูล

เมื่อทำงานกับการแจกแจงแบบเปิด เราสามารถใช้สูตรต่อไปนี้เพื่อค้นหาค่าประมาณค่ามัธยฐานที่ดีที่สุด:

ค่าประมาณมัธยฐานที่ดีที่สุด: L + ((n/2 – F) / f) * w

ทอง:

  • L: ขีดจำกัดล่างของกลุ่มกลาง
  • n: จำนวนการสังเกตทั้งหมด
  • F: ความถี่สะสมจนถึงกลุ่มกลาง
  • f: ความถี่ของกลุ่มกลาง
  • w : ความกว้างของกลุ่มตรงกลาง

ตัวอย่างเช่น สมมติว่าเรามีการกระจายแบบเปิดดังต่อไปนี้:

ชุดข้อมูลจะมีทั้งหมด 72 ค่า ดังนั้นเราจึงรู้ว่า ค่ามัธยฐาน จะอยู่ระหว่างค่าที่ใหญ่ที่สุดลำดับที่ 36 ถึง 37 ในชุดข้อมูล แต่ละค่าเหล่านี้อยู่ในระดับ “60,000 – 79,999 เหรียญสหรัฐฯ” ดังนั้นเราจึงทราบว่ารายได้เฉลี่ยอยู่ในช่วงนั้น

ค่าประมาณมัธยฐานที่ดีที่สุดของเราคือ:

ค่ามัธยฐาน: 60,000 + ((72/2 – 25) / 19) * 19,999 = 71,578 ดอลลาร์

ค่านี้แสดงถึงค่าประมาณที่ดีที่สุดสำหรับรายได้เฉลี่ยต่อปีของบุคคลในชุดข้อมูลนี้

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *