คำอธิบายง่ายๆ เกี่ยวกับวิธีตีความความแปรปรวน


ในทางสถิติ เรามักต้องการเข้าใจว่าค่า “กระจาย” อยู่ในชุดข้อมูลอย่างไร ในการวัดสิ่งนี้ เรามักจะใช้ มาตรการการกระจายต่อไปนี้:

  • ช่วง: ความแตกต่างระหว่างค่าที่ใหญ่ที่สุดและน้อยที่สุดในชุดข้อมูล
  • ช่วงระหว่างควอร์ไทล์: ความแตกต่างระหว่างควอไทล์ที่ 1 และควอไทล์ที่ 3 ของชุดข้อมูล (ควอไทล์เป็นเพียงค่าที่แบ่งชุดข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน)
  • ส่วนเบี่ยงเบนมาตรฐาน: วิธีการวัดระยะห่างโดยทั่วไประหว่างค่ากับค่าเฉลี่ย
  • ความแปรปรวน: ส่วนเบี่ยงเบนมาตรฐานกำลังสอง

จากการวัดทั้งสี่นี้ ความแปรปรวน มีแนวโน้มที่จะเข้าใจโดยสัญชาตญาณได้ยากที่สุด บทความนี้มีจุดมุ่งหมายเพื่อให้คำอธิบายง่ายๆ เกี่ยวกับความแปรปรวน

ทำความเข้าใจกับค่าเบี่ยงเบนมาตรฐาน

ก่อนที่เราจะสามารถเข้าใจความแปรปรวนได้ เราต้องเข้าใจ ค่าเบี่ยงเบนมาตรฐาน ก่อน ซึ่งโดยปกติจะเขียนแทนด้วย σ

สูตรคำนวณค่าเบี่ยงเบนมาตรฐานคือ:

σ = √(Σ (x i – μ) 2 / N)

โดยที่ μ คือค่าเฉลี่ยประชากร x i คือองค์ประกอบที่ i ของประชากร N คือขนาดประชากร และ Σ เป็นเพียงสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”

ในทางปฏิบัติ คุณแทบจะไม่ต้องคำนวณค่าเบี่ยงเบนมาตรฐานด้วยมือเลย คุณสามารถใช้ซอฟต์แวร์ทางสถิติหรือเครื่องคิดเลขแทนได้

ในระดับพื้นฐานที่สุด ค่าเบี่ยงเบนมาตรฐานจะบอกเราถึงการกระจายของค่าข้อมูลในชุดข้อมูล เพื่ออธิบายสิ่งนี้ ให้พิจารณาชุดข้อมูลสามชุดต่อไปนี้พร้อมกับค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกัน:

[5, 5, 5] ส่วนเบี่ยงเบนมาตรฐาน = 0 (ไม่มีสเปรดเลย)

[3, 5, 7] ส่วนเบี่ยงเบนมาตรฐาน = 1.63 (ส่วนเบี่ยงเบนบางส่วน)

[1, 5, 99] ส่วนเบี่ยงเบนมาตรฐาน = 45.28 (สเปรดจำนวนมาก)

คำว่า “ค่าเบี่ยงเบนมาตรฐาน” สามารถเข้าใจได้โดยดูจากคำสองคำที่ประกอบกัน:

  • “ส่วนเบี่ยงเบน” – หมายถึงระยะห่างจากค่าเฉลี่ย
  • “มาตรฐาน” – หมายถึงระยะห่าง “มาตรฐาน” หรือ “ทั่วไป” ระหว่างค่าและค่าเฉลี่ย

เมื่อคุณเข้าใจค่าเบี่ยงเบนมาตรฐานแล้ว คุณจะเข้าใจความแปรปรวนได้ง่ายขึ้นมาก

ทำความเข้าใจกับช่องว่าง

ความแปรปรวน ซึ่งปกติจะแสดงแทน σ2 เป็นเพียงค่าเบี่ยงเบนมาตรฐานกำลังสอง สูตรในการค้นหาความแปรปรวนของชุดข้อมูลคือ:

σ 2 = Σ (x i – μ) 2 / N

โดยที่ μ คือค่าเฉลี่ยประชากร x i คือองค์ประกอบที่ i ของประชากร N คือขนาดประชากร และ Σ เป็นเพียงสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”

ดังนั้น หากค่าเบี่ยงเบนมาตรฐานของชุดข้อมูลคือ 8 ความแปรผันจะเป็น 8 2 = 64

หรือถ้าค่าเบี่ยงเบนมาตรฐานของชุดข้อมูลคือ 10 ความแปรผันจะเป็น 10 2 = 100

หรือถ้าค่าเบี่ยงเบนมาตรฐานของชุดข้อมูลคือ 3.7 ความแปรผันจะเป็น 3.7 2 = 13.69

ยิ่งค่ากระจัดกระจายอยู่ในชุดข้อมูลมากเท่าใด ความแปรปรวนก็จะยิ่งสูงขึ้นเท่านั้น เพื่ออธิบายสิ่งนี้ ให้พิจารณาชุดข้อมูลสามชุดต่อไปนี้พร้อมกับความแปรปรวนที่สอดคล้องกัน:

ความแปรปรวน [5, 5, 5] = 0 (ไม่มีสเปรดเลย)

ความแปรปรวน [3, 5, 7] = 2.67 (เบี่ยงเบนบ้าง)

ความแปรปรวน [1, 5, 99] = 2,050.67 (สเปรดจำนวนมาก)

เมื่อใดที่คุณจะใช้ความแปรปรวนแทนค่าเบี่ยงเบนมาตรฐาน

หลังจากอ่านคำอธิบายข้างต้นเกี่ยวกับค่าเบี่ยงเบนมาตรฐานและความแปรปรวนแล้ว คุณอาจสงสัยว่าเมื่อใดที่คุณจะใช้ความแปรปรวนแทนค่าเบี่ยงเบนมาตรฐานในการอธิบายชุดข้อมูล

ท้ายที่สุดแล้ว ค่าเบี่ยงเบนมาตรฐานบอกเราถึงระยะห่างเฉลี่ยระหว่างค่าหนึ่งกับค่าเฉลี่ย ในขณะที่ความแปรปรวนบอกเราถึงกำลังสองของค่านั้น ดูเหมือนว่าค่าเบี่ยงเบนมาตรฐานจะเข้าใจและตีความได้ง่ายกว่ามาก

ในความเป็นจริง คุณจะใช้ค่าเบี่ยงเบนมาตรฐานเพื่ออธิบายการกระจายของค่าในชุดข้อมูลเกือบทุกครั้ง

อย่างไรก็ตาม ความแปรปรวนอาจมีประโยชน์เมื่อใช้เทคนิค เช่น ANOVA หรือ การถดถอย และพยายามอธิบายความแปรปรวนรวมของแบบจำลองเนื่องจากปัจจัยเฉพาะ

ตัวอย่างเช่น คุณอาจต้องการเข้าใจว่า IQ สามารถอธิบายความแปรปรวนของคะแนนทดสอบได้มากเพียงใด และ IQ สามารถอธิบายความแปรปรวนได้มากเพียงใดด้วยจำนวนชั่วโมงที่ศึกษา

หากการเปลี่ยนแปลง 36% เกิดจาก IQ และ 64% มาจากชั่วโมงเรียน นี่เป็นเรื่องง่ายที่จะเข้าใจ แต่ถ้าเราใช้ค่าเบี่ยงเบนมาตรฐานเป็น 6 กับ 8 มันจะเข้าใจได้น้อยกว่ามาก และไม่สมเหตุสมผลเลยในบริบทของปัญหา

อีกกรณีที่การใช้ความแปรปรวนมากกว่าส่วนเบี่ยงเบนมาตรฐานอาจดีกว่าคือเมื่อคุณกำลังทำงานทางสถิติเชิงทฤษฎี

ในกรณีนี้ การใช้ความแปรปรวนในการคำนวณจะง่ายกว่ามาก เนื่องจากคุณไม่จำเป็นต้องใช้เครื่องหมายรากที่สอง

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับผลต่าง:

ความแปรปรวนตัวอย่างและความแปรปรวนของประชากร: อะไรคือความแตกต่าง?
วิธีการคำนวณตัวอย่างและความแปรปรวนของประชากรใน Excel

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *