ข้อสันนิษฐานความเป็นอิสระในสถิติคืออะไร?
การทดสอบทางสถิติจำนวนมากถือว่า การสังเกต มีความเป็นอิสระ ซึ่งหมายความว่าไม่มีการสังเกตในชุดข้อมูลใดที่เกี่ยวข้องกันหรือส่งผลกระทบซึ่งกันและกันในทางใดทางหนึ่ง
ตัวอย่างเช่น สมมติว่าเราต้องการทดสอบว่าแมว 2 สายพันธุ์มีน้ำหนักเฉลี่ยต่างกันหรือไม่ หากเราวัดน้ำหนักของแมวสายพันธุ์ A 10 ตัวและแมวสายพันธุ์ B 10 ตัว เราจะฝ่าฝืนสมมติฐานเรื่องความเป็นอิสระหากแมวแต่ละกลุ่มมาจากครอกเดียวกัน
เป็นไปได้ว่าแม่แมวสายพันธุ์ A มีเพียงลูกแมวที่มีน้ำหนักน้อยทั้งหมด ในขณะที่แม่แมวสายพันธุ์ B มีลูกแมวที่มีน้ำหนักมาก ทั้งนี้การสังเกตของแต่ละตัวอย่างไม่เป็นอิสระจากกัน
มีการทดสอบทางสถิติทั่วไปสามประเภทที่ทำให้สมมติฐานนี้มีความเป็นอิสระ:
2. ANOVA (การวิเคราะห์ความแปรปรวน)
ในส่วนต่อไปนี้ เราจะอธิบาย ว่าทำไม จึงทำสมมติฐานนี้สำหรับการทดสอบแต่ละประเภท ตลอดจนวิธีพิจารณาว่าเป็นไปตามสมมติฐานนี้หรือไม่
สมมติฐานของความเป็นอิสระในการทดสอบที
การทดสอบทีแบบสองตัวอย่าง ใช้เพื่อทดสอบว่าค่าเฉลี่ยของประชากรทั้งสองเท่ากันหรือไม่
ข้อสันนิษฐาน: การทดสอบประเภทนี้ถือว่าการสังเกต ภายใน ตัวอย่างแต่ละตัวอย่างมีความเป็นอิสระจากกัน และการสังเกต ระหว่าง ตัวอย่างก็ไม่ขึ้นอยู่กับกันและกันด้วย
ทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการตรวจสอบว่าการสังเกตแต่ละครั้งปรากฏเพียงครั้งเดียวในแต่ละตัวอย่าง และการสังเกตในแต่ละตัวอย่างถูกรวบรวมโดยการสุ่มตัวอย่าง
สมมติฐานความเป็นอิสระใน ANOVA
ANOVA ใช้เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญระหว่างค่าเฉลี่ยของกลุ่มอิสระตั้งแต่ 3 กลุ่มขึ้นไปหรือไม่
สมมติฐาน: การ วิเคราะห์ความแปรปรวนจะถือว่าการสังเกตในแต่ละกลุ่มมีความเป็นอิสระจากกัน และการสังเกตภายในกลุ่มนั้นได้มาจากการสุ่มตัวอย่าง
ทดสอบสมมติฐานนี้: เช่นเดียวกับการทดสอบที วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการตรวจสอบว่าการสังเกตแต่ละครั้งปรากฏขึ้นเพียงครั้งเดียวในแต่ละตัวอย่าง และการสังเกตในแต่ละตัวอย่างถูกรวบรวมโดยการสุ่มตัวอย่าง
ความเป็นอิสระในการถดถอยที่สันนิษฐาน
การถดถอยเชิงเส้น ใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง
สมมติฐาน: การถดถอยเชิงเส้นถือว่า ส่วนที่เหลือ ของแบบจำลองที่ติดตั้งนั้นเป็นอิสระจากกัน
ทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการดูแผนภาพลำดับเวลาของสารตกค้าง ซึ่งเป็นแผนภาพของสารตกค้างเทียบกับเวลา ตามหลักการแล้ว ความสัมพันธ์อัตโนมัติที่ตกค้างส่วนใหญ่ควรอยู่ภายในแถบความเชื่อมั่น 95% รอบศูนย์ ซึ่งอยู่ที่ประมาณ +/- 2 บนรากที่สองของ n โดยที่ n คือขนาดตัวอย่าง คุณยังสามารถทดสอบอย่างเป็นทางการว่าเป็นไปตามสมมติฐานนี้หรือไม่โดยใช้ การทดสอบ Durbin-Watson
แหล่งที่มาทั่วไปของการไม่เป็นอิสระ
มีแหล่งที่มาทั่วไปของการไม่เป็นอิสระจากชุดข้อมูลสามแหล่ง:
1. ปิดการสังเกตพร้อมกันทันเวลา
ตัวอย่างเช่น นักวิจัยอาจรวบรวมข้อมูลความเร็วเฉลี่ยของรถยนต์บนถนนเส้นหนึ่ง หากเขาเลือกที่จะติดตามความเร็วในตอนเย็น เขาอาจพบว่าความเร็วเฉลี่ยนั้นสูงกว่าที่เขาคาดไว้มาก เพียงเพราะคนขับทุกคนรีบกลับบ้านจากที่ทำงาน
ข้อมูลเหล่านี้ฝ่าฝืนสมมติฐานที่ว่าการสังเกตแต่ละครั้งมีความเป็นอิสระ เนื่องจากการสังเกตแต่ละครั้งถูกสังเกตในเวลาเดียวกันของวัน ความเร็วของรถแต่ละคันจึงมีแนวโน้มจะใกล้เคียงกัน
2. การสังเกตการณ์ถูกปิดเข้าด้วยกันในอวกาศ
เช่น นักวิจัยอาจรวบรวมข้อมูลรายได้ต่อปีจากผู้ที่อาศัยอยู่ในละแวกใกล้เคียงที่มีรายได้สูงเหมือนกันเพราะสะดวก
ทั้งนี้ ทุกคนที่รวมอยู่ในกลุ่มตัวอย่างข้อมูลมีแนวโน้มจะมีรายได้ใกล้เคียงกันเนื่องจากทุกคนอาศัยอยู่ใกล้กัน สิ่งนี้ฝ่าฝืนสมมติฐานที่ว่าการสังเกตแต่ละครั้งมีความเป็นอิสระ
3. การสังเกตปรากฏขึ้นหลายครั้งในชุดข้อมูลเดียวกัน
ตัวอย่างเช่น นักวิจัยอาจต้องรวบรวมข้อมูลจากคน 50 คน แต่ตัดสินใจรวบรวมข้อมูลจากคน 25 คนสองครั้งแทน เพราะมันง่ายกว่ามาก
สิ่งนี้ฝ่าฝืนสมมติฐานความเป็นอิสระเนื่องจากการสังเกตแต่ละครั้งในชุดข้อมูลจะเกี่ยวข้องกับตัวมันเอง
จะหลีกเลี่ยงการละเมิดสมมติฐานความเป็นอิสระได้อย่างไร
วิธีที่ง่ายที่สุดในการหลีกเลี่ยงการละเมิดสมมติฐานด้านความเป็นอิสระคือเพียงใช้ การสุ่มตัวอย่างแบบง่ายๆ เมื่อได้รับตัวอย่างจากประชากร
เมื่อใช้วิธีนี้ บุคคลแต่ละคนใน ประชากร ที่สนใจจะมีโอกาสเท่ากันที่จะถูกรวมเข้าในกลุ่มตัวอย่าง
ตัวอย่างเช่น หากประชากรที่เราสนใจมีจำนวน 10,000 คน เราสามารถสุ่มกำหนดตัวเลขให้กับแต่ละบุคคลในประชากร จากนั้นใช้เครื่องสร้างตัวเลขสุ่มเพื่อเลือกตัวเลขสุ่ม 40 ตัว บุคคลที่ตรงกับตัวเลขเหล่านี้จะถูกรวมไว้ในกลุ่มตัวอย่าง
เมื่อใช้วิธีนี้ เราจะลดโอกาสในการเลือกบุคคลสองคนที่อาจใกล้ชิดกันมากหรืออาจเกี่ยวข้องกันในทางใดทางหนึ่ง
ซึ่งตรงกันข้ามกับวิธีการสุ่มตัวอย่างอื่นๆ โดยตรง เช่น:
- การสุ่มตัวอย่างตามความสะดวก: รวมถึงบุคคลในกลุ่มตัวอย่างที่เข้าถึงได้ง่าย
- การสุ่มตัวอย่างโดยสมัครใจ: รวมถึงบุคคลในกลุ่มตัวอย่างที่ อาสา ที่จะรวมด้วย
ด้วยการใช้วิธีการสุ่มตัวอย่าง เราสามารถลดโอกาสที่จะละเมิดสมมติฐานความเป็นอิสระได้
แหล่งข้อมูลเพิ่มเติม
สมมติฐานทั้งสี่นี้กำหนดขึ้นในการทดสอบ T
สมมติฐานสี่ประการของการถดถอยเชิงเส้น
สมมติฐานทั้งสามของ ANOVA
ตัวอย่างที่เป็นตัวแทนคืออะไร และเหตุใดจึงสำคัญ