ข้อสันนิษฐานความเป็นอิสระในสถิติคืออะไร?


การทดสอบทางสถิติจำนวนมากถือว่า การสังเกต มีความเป็นอิสระ ซึ่งหมายความว่าไม่มีการสังเกตในชุดข้อมูลใดที่เกี่ยวข้องกันหรือส่งผลกระทบซึ่งกันและกันในทางใดทางหนึ่ง

ตัวอย่างเช่น สมมติว่าเราต้องการทดสอบว่าแมว 2 สายพันธุ์มีน้ำหนักเฉลี่ยต่างกันหรือไม่ หากเราวัดน้ำหนักของแมวสายพันธุ์ A 10 ตัวและแมวสายพันธุ์ B 10 ตัว เราจะฝ่าฝืนสมมติฐานเรื่องความเป็นอิสระหากแมวแต่ละกลุ่มมาจากครอกเดียวกัน

เป็นไปได้ว่าแม่แมวสายพันธุ์ A มีเพียงลูกแมวที่มีน้ำหนักน้อยทั้งหมด ในขณะที่แม่แมวสายพันธุ์ B มีลูกแมวที่มีน้ำหนักมาก ทั้งนี้การสังเกตของแต่ละตัวอย่างไม่เป็นอิสระจากกัน

มีการทดสอบทางสถิติทั่วไปสามประเภทที่ทำให้สมมติฐานนี้มีความเป็นอิสระ:

1. การทดสอบทีสองตัวอย่าง

2. ANOVA (การวิเคราะห์ความแปรปรวน)

3. การถดถอยเชิงเส้น

ในส่วนต่อไปนี้ เราจะอธิบาย ว่าทำไม จึงทำสมมติฐานนี้สำหรับการทดสอบแต่ละประเภท ตลอดจนวิธีพิจารณาว่าเป็นไปตามสมมติฐานนี้หรือไม่

สมมติฐานของความเป็นอิสระในการทดสอบที

การทดสอบทีแบบสองตัวอย่าง ใช้เพื่อทดสอบว่าค่าเฉลี่ยของประชากรทั้งสองเท่ากันหรือไม่

ข้อสันนิษฐาน: การทดสอบประเภทนี้ถือว่าการสังเกต ภายใน ตัวอย่างแต่ละตัวอย่างมีความเป็นอิสระจากกัน และการสังเกต ระหว่าง ตัวอย่างก็ไม่ขึ้นอยู่กับกันและกันด้วย

ทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการตรวจสอบว่าการสังเกตแต่ละครั้งปรากฏเพียงครั้งเดียวในแต่ละตัวอย่าง และการสังเกตในแต่ละตัวอย่างถูกรวบรวมโดยการสุ่มตัวอย่าง

สมมติฐานความเป็นอิสระใน ANOVA

ANOVA ใช้เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญระหว่างค่าเฉลี่ยของกลุ่มอิสระตั้งแต่ 3 กลุ่มขึ้นไปหรือไม่

สมมติฐาน: การ วิเคราะห์ความแปรปรวนจะถือว่าการสังเกตในแต่ละกลุ่มมีความเป็นอิสระจากกัน และการสังเกตภายในกลุ่มนั้นได้มาจากการสุ่มตัวอย่าง

ทดสอบสมมติฐานนี้: เช่นเดียวกับการทดสอบที วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการตรวจสอบว่าการสังเกตแต่ละครั้งปรากฏขึ้นเพียงครั้งเดียวในแต่ละตัวอย่าง และการสังเกตในแต่ละตัวอย่างถูกรวบรวมโดยการสุ่มตัวอย่าง

ความเป็นอิสระในการถดถอยที่สันนิษฐาน

การถดถอยเชิงเส้น ใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง

สมมติฐาน: การถดถอยเชิงเส้นถือว่า ส่วนที่เหลือ ของแบบจำลองที่ติดตั้งนั้นเป็นอิสระจากกัน

ทดสอบสมมติฐานนี้: วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือการดูแผนภาพลำดับเวลาของสารตกค้าง ซึ่งเป็นแผนภาพของสารตกค้างเทียบกับเวลา ตามหลักการแล้ว ความสัมพันธ์อัตโนมัติที่ตกค้างส่วนใหญ่ควรอยู่ภายในแถบความเชื่อมั่น 95% รอบศูนย์ ซึ่งอยู่ที่ประมาณ +/- 2 บนรากที่สองของ n โดยที่ n คือขนาดตัวอย่าง คุณยังสามารถทดสอบอย่างเป็นทางการว่าเป็นไปตามสมมติฐานนี้หรือไม่โดยใช้ การทดสอบ Durbin-Watson

แหล่งที่มาทั่วไปของการไม่เป็นอิสระ

มีแหล่งที่มาทั่วไปของการไม่เป็นอิสระจากชุดข้อมูลสามแหล่ง:

1. ปิดการสังเกตพร้อมกันทันเวลา

ตัวอย่างเช่น นักวิจัยอาจรวบรวมข้อมูลความเร็วเฉลี่ยของรถยนต์บนถนนเส้นหนึ่ง หากเขาเลือกที่จะติดตามความเร็วในตอนเย็น เขาอาจพบว่าความเร็วเฉลี่ยนั้นสูงกว่าที่เขาคาดไว้มาก เพียงเพราะคนขับทุกคนรีบกลับบ้านจากที่ทำงาน

ข้อมูลเหล่านี้ฝ่าฝืนสมมติฐานที่ว่าการสังเกตแต่ละครั้งมีความเป็นอิสระ เนื่องจากการสังเกตแต่ละครั้งถูกสังเกตในเวลาเดียวกันของวัน ความเร็วของรถแต่ละคันจึงมีแนวโน้มจะใกล้เคียงกัน

2. การสังเกตการณ์ถูกปิดเข้าด้วยกันในอวกาศ

เช่น นักวิจัยอาจรวบรวมข้อมูลรายได้ต่อปีจากผู้ที่อาศัยอยู่ในละแวกใกล้เคียงที่มีรายได้สูงเหมือนกันเพราะสะดวก

ทั้งนี้ ทุกคนที่รวมอยู่ในกลุ่มตัวอย่างข้อมูลมีแนวโน้มจะมีรายได้ใกล้เคียงกันเนื่องจากทุกคนอาศัยอยู่ใกล้กัน สิ่งนี้ฝ่าฝืนสมมติฐานที่ว่าการสังเกตแต่ละครั้งมีความเป็นอิสระ

3. การสังเกตปรากฏขึ้นหลายครั้งในชุดข้อมูลเดียวกัน

ตัวอย่างเช่น นักวิจัยอาจต้องรวบรวมข้อมูลจากคน 50 คน แต่ตัดสินใจรวบรวมข้อมูลจากคน 25 คนสองครั้งแทน เพราะมันง่ายกว่ามาก

สิ่งนี้ฝ่าฝืนสมมติฐานความเป็นอิสระเนื่องจากการสังเกตแต่ละครั้งในชุดข้อมูลจะเกี่ยวข้องกับตัวมันเอง

จะหลีกเลี่ยงการละเมิดสมมติฐานความเป็นอิสระได้อย่างไร

วิธีที่ง่ายที่สุดในการหลีกเลี่ยงการละเมิดสมมติฐานด้านความเป็นอิสระคือเพียงใช้ การสุ่มตัวอย่างแบบง่ายๆ เมื่อได้รับตัวอย่างจากประชากร

เมื่อใช้วิธีนี้ บุคคลแต่ละคนใน ประชากร ที่สนใจจะมีโอกาสเท่ากันที่จะถูกรวมเข้าในกลุ่มตัวอย่าง

ตัวอย่างเช่น หากประชากรที่เราสนใจมีจำนวน 10,000 คน เราสามารถสุ่มกำหนดตัวเลขให้กับแต่ละบุคคลในประชากร จากนั้นใช้เครื่องสร้างตัวเลขสุ่มเพื่อเลือกตัวเลขสุ่ม 40 ตัว บุคคลที่ตรงกับตัวเลขเหล่านี้จะถูกรวมไว้ในกลุ่มตัวอย่าง

เมื่อใช้วิธีนี้ เราจะลดโอกาสในการเลือกบุคคลสองคนที่อาจใกล้ชิดกันมากหรืออาจเกี่ยวข้องกันในทางใดทางหนึ่ง

ซึ่งตรงกันข้ามกับวิธีการสุ่มตัวอย่างอื่นๆ โดยตรง เช่น:

  • การสุ่มตัวอย่างตามความสะดวก: รวมถึงบุคคลในกลุ่มตัวอย่างที่เข้าถึงได้ง่าย
  • การสุ่มตัวอย่างโดยสมัครใจ: รวมถึงบุคคลในกลุ่มตัวอย่างที่ อาสา ที่จะรวมด้วย

ด้วยการใช้วิธีการสุ่มตัวอย่าง เราสามารถลดโอกาสที่จะละเมิดสมมติฐานความเป็นอิสระได้

แหล่งข้อมูลเพิ่มเติม

สมมติฐานทั้งสี่นี้กำหนดขึ้นในการทดสอบ T
สมมติฐานสี่ประการของการถดถอยเชิงเส้น
สมมติฐานทั้งสามของ ANOVA
ตัวอย่างที่เป็นตัวแทนคืออะไร และเหตุใดจึงสำคัญ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *