คำอธิบายง่ายๆ เกี่ยวกับวิธีตีความความแปรปรวน
ในทางสถิติ เรามักต้องการเข้าใจว่าค่า “กระจาย” อยู่ในชุดข้อมูลอย่างไร ในการวัดสิ่งนี้ เรามักจะใช้ มาตรการการกระจายต่อไปนี้:
- ช่วง: ความแตกต่างระหว่างค่าที่ใหญ่ที่สุดและน้อยที่สุดในชุดข้อมูล
- ช่วงระหว่างควอร์ไทล์: ความแตกต่างระหว่างควอไทล์ที่ 1 และควอไทล์ที่ 3 ของชุดข้อมูล (ควอไทล์เป็นเพียงค่าที่แบ่งชุดข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน)
- ส่วนเบี่ยงเบนมาตรฐาน: วิธีการวัดระยะห่างโดยทั่วไประหว่างค่ากับค่าเฉลี่ย
- ความแปรปรวน: ส่วนเบี่ยงเบนมาตรฐานกำลังสอง
จากการวัดทั้งสี่นี้ ความแปรปรวน มีแนวโน้มที่จะเข้าใจโดยสัญชาตญาณได้ยากที่สุด บทความนี้มีจุดมุ่งหมายเพื่อให้คำอธิบายง่ายๆ เกี่ยวกับความแปรปรวน
ทำความเข้าใจกับค่าเบี่ยงเบนมาตรฐาน
ก่อนที่เราจะสามารถเข้าใจความแปรปรวนได้ เราต้องเข้าใจ ค่าเบี่ยงเบนมาตรฐาน ก่อน ซึ่งโดยปกติจะเขียนแทนด้วย σ
สูตรคำนวณค่าเบี่ยงเบนมาตรฐานคือ:
σ = √(Σ (x i – μ) 2 / N)
โดยที่ μ คือค่าเฉลี่ยประชากร x i คือองค์ประกอบที่ i ของประชากร N คือขนาดประชากร และ Σ เป็นเพียงสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”
ในทางปฏิบัติ คุณแทบจะไม่ต้องคำนวณค่าเบี่ยงเบนมาตรฐานด้วยมือเลย คุณสามารถใช้ซอฟต์แวร์ทางสถิติหรือเครื่องคิดเลขแทนได้
ในระดับพื้นฐานที่สุด ค่าเบี่ยงเบนมาตรฐานจะบอกเราถึงการกระจายของค่าข้อมูลในชุดข้อมูล เพื่ออธิบายสิ่งนี้ ให้พิจารณาชุดข้อมูลสามชุดต่อไปนี้พร้อมกับค่าเบี่ยงเบนมาตรฐานที่สอดคล้องกัน:
[5, 5, 5] ส่วนเบี่ยงเบนมาตรฐาน = 0 (ไม่มีสเปรดเลย)
[3, 5, 7] ส่วนเบี่ยงเบนมาตรฐาน = 1.63 (ส่วนเบี่ยงเบนบางส่วน)
[1, 5, 99] ส่วนเบี่ยงเบนมาตรฐาน = 45.28 (สเปรดจำนวนมาก)
คำว่า “ค่าเบี่ยงเบนมาตรฐาน” สามารถเข้าใจได้โดยดูจากคำสองคำที่ประกอบกัน:
- “ส่วนเบี่ยงเบน” – หมายถึงระยะห่างจากค่าเฉลี่ย
- “มาตรฐาน” – หมายถึงระยะห่าง “มาตรฐาน” หรือ “ทั่วไป” ระหว่างค่าและค่าเฉลี่ย
เมื่อคุณเข้าใจค่าเบี่ยงเบนมาตรฐานแล้ว คุณจะเข้าใจความแปรปรวนได้ง่ายขึ้นมาก
ทำความเข้าใจกับช่องว่าง
ความแปรปรวน ซึ่งปกติจะแสดงแทน σ2 เป็นเพียงค่าเบี่ยงเบนมาตรฐานกำลังสอง สูตรในการค้นหาความแปรปรวนของชุดข้อมูลคือ:
σ 2 = Σ (x i – μ) 2 / N
โดยที่ μ คือค่าเฉลี่ยประชากร x i คือองค์ประกอบที่ i ของประชากร N คือขนาดประชากร และ Σ เป็นเพียงสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”
ดังนั้น หากค่าเบี่ยงเบนมาตรฐานของชุดข้อมูลคือ 8 ความแปรผันจะเป็น 8 2 = 64
หรือถ้าค่าเบี่ยงเบนมาตรฐานของชุดข้อมูลคือ 10 ความแปรผันจะเป็น 10 2 = 100
หรือถ้าค่าเบี่ยงเบนมาตรฐานของชุดข้อมูลคือ 3.7 ความแปรผันจะเป็น 3.7 2 = 13.69
ยิ่งค่ากระจัดกระจายอยู่ในชุดข้อมูลมากเท่าใด ความแปรปรวนก็จะยิ่งสูงขึ้นเท่านั้น เพื่ออธิบายสิ่งนี้ ให้พิจารณาชุดข้อมูลสามชุดต่อไปนี้พร้อมกับความแปรปรวนที่สอดคล้องกัน:
ความแปรปรวน [5, 5, 5] = 0 (ไม่มีสเปรดเลย)
ความแปรปรวน [3, 5, 7] = 2.67 (เบี่ยงเบนบ้าง)
ความแปรปรวน [1, 5, 99] = 2,050.67 (สเปรดจำนวนมาก)
เมื่อใดที่คุณจะใช้ความแปรปรวนแทนค่าเบี่ยงเบนมาตรฐาน
หลังจากอ่านคำอธิบายข้างต้นเกี่ยวกับค่าเบี่ยงเบนมาตรฐานและความแปรปรวนแล้ว คุณอาจสงสัยว่าเมื่อใดที่คุณจะใช้ความแปรปรวนแทนค่าเบี่ยงเบนมาตรฐานในการอธิบายชุดข้อมูล
ท้ายที่สุดแล้ว ค่าเบี่ยงเบนมาตรฐานบอกเราถึงระยะห่างเฉลี่ยระหว่างค่าหนึ่งกับค่าเฉลี่ย ในขณะที่ความแปรปรวนบอกเราถึงกำลังสองของค่านั้น ดูเหมือนว่าค่าเบี่ยงเบนมาตรฐานจะเข้าใจและตีความได้ง่ายกว่ามาก
ในความเป็นจริง คุณจะใช้ค่าเบี่ยงเบนมาตรฐานเพื่ออธิบายการกระจายของค่าในชุดข้อมูลเกือบทุกครั้ง
อย่างไรก็ตาม ความแปรปรวนอาจมีประโยชน์เมื่อใช้เทคนิค เช่น ANOVA หรือ การถดถอย และพยายามอธิบายความแปรปรวนรวมของแบบจำลองเนื่องจากปัจจัยเฉพาะ
ตัวอย่างเช่น คุณอาจต้องการเข้าใจว่า IQ สามารถอธิบายความแปรปรวนของคะแนนทดสอบได้มากเพียงใด และ IQ สามารถอธิบายความแปรปรวนได้มากเพียงใดด้วยจำนวนชั่วโมงที่ศึกษา
หากการเปลี่ยนแปลง 36% เกิดจาก IQ และ 64% มาจากชั่วโมงเรียน นี่เป็นเรื่องง่ายที่จะเข้าใจ แต่ถ้าเราใช้ค่าเบี่ยงเบนมาตรฐานเป็น 6 กับ 8 มันจะเข้าใจได้น้อยกว่ามาก และไม่สมเหตุสมผลเลยในบริบทของปัญหา
อีกกรณีที่การใช้ความแปรปรวนมากกว่าส่วนเบี่ยงเบนมาตรฐานอาจดีกว่าคือเมื่อคุณกำลังทำงานทางสถิติเชิงทฤษฎี
ในกรณีนี้ การใช้ความแปรปรวนในการคำนวณจะง่ายกว่ามาก เนื่องจากคุณไม่จำเป็นต้องใช้เครื่องหมายรากที่สอง
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับผลต่าง:
ความแปรปรวนตัวอย่างและความแปรปรวนของประชากร: อะไรคือความแตกต่าง?
วิธีการคำนวณตัวอย่างและความแปรปรวนของประชากรใน Excel