ข้อสันนิษฐานปกติในสถิติคืออะไร?
การทดสอบทางสถิติจำนวนมากอาศัยสิ่งที่เรียกว่า สมมติฐานภาวะปกติ
สมมติฐานนี้ระบุว่าหากเรารวบรวมตัวอย่างสุ่มอิสระจำนวนมากจากประชากรและคำนวณค่าที่น่าสนใจ (เช่น ค่าเฉลี่ยตัวอย่าง ) จากนั้นสร้างฮิสโตแกรมเพื่อแสดงภาพการกระจายตัวของค่าเฉลี่ยตัวอย่าง เราควรสังเกต เส้นโค้งระฆัง ที่สมบูรณ์แบบ
เทคนิคทางสถิติหลายอย่างทำให้สมมติฐานนี้เกี่ยวกับข้อมูล ได้แก่:
1. การทดสอบ t ตัวอย่างหนึ่งรายการ : ถือว่าข้อมูลตัวอย่างมีการกระจายตามปกติ
2. การทดสอบทีสองตัวอย่าง : สมมติว่าทั้งสองตัวอย่างมีการกระจายตามปกติ
3. ANOVA : ถือว่าส่วนที่เหลือของแบบจำลองมีการกระจายตามปกติ
4. การถดถอยเชิงเส้น : ถือว่าส่วนที่เหลือของแบบจำลองมีการกระจายตามปกติ
หากไม่เป็นไปตามสมมติฐานนี้ ผลลัพธ์ของการทดสอบเหล่านี้จะไม่น่าเชื่อถือ และเราไม่สามารถสรุปข้อสรุปของเราจากตัวอย่างข้อมูลไปยัง ประชากร โดยรวมได้อย่างมั่นใจ ด้วยเหตุนี้จึงเป็นสิ่งสำคัญที่ต้องตรวจสอบว่าเป็นไปตามสมมติฐานนี้หรือไม่
มีสองวิธีทั่วไปในการตรวจสอบว่าเป็นไปตามสมมติฐานปกตินี้หรือไม่:
1. เห็นภาพความเป็นปกติ
2. ทำการทดสอบทางสถิติอย่างเป็นทางการ
ส่วนต่อไปนี้จะอธิบายกราฟเฉพาะที่คุณสามารถสร้างได้และการทดสอบทางสถิติเฉพาะที่คุณสามารถทำได้เพื่อตรวจสอบภาวะปกติ
เห็นภาพความเป็นปกติ
วิธีที่รวดเร็วและไม่เป็นทางการในการตรวจสอบว่าชุดข้อมูลมีการกระจายตามปกติหรือไม่คือการสร้างฮิสโตแกรมหรือพล็อต QQ
1. ฮิสโตแกรม
หากฮิสโตแกรมของชุดข้อมูลเป็นรูประฆังโดยประมาณ ก็มีแนวโน้มว่าข้อมูลจะมีการกระจายตามปกติ
2. คิวคิวแลนด์
พล็อต QQ ย่อมาจาก “ควอนไทล์-ควอนไทล์” คือพล็อตประเภทหนึ่งที่แสดงควอนไทล์เชิงทฤษฎีตามแนวแกน x (นั่นคือ ตำแหน่งที่ข้อมูลของคุณจะอยู่หากเป็นไปตามการแจกแจงแบบปกติ) และควอนไทล์ของตัวอย่างตามแนวแกน y (เช่น ข้อมูลของคุณอยู่ที่ใด)
หากค่าข้อมูลเป็นเส้นตรงประมาณ 45 องศา ถือว่าข้อมูลมีการกระจายตามปกติ
ทำการทดสอบทางสถิติอย่างเป็นทางการ
คุณยังสามารถทำการทดสอบทางสถิติอย่างเป็นทางการเพื่อพิจารณาว่าชุดข้อมูลมีการกระจายตามปกติหรือไม่
หาก ค่า p ของการทดสอบต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น α = 0.05) แสดงว่าคุณมีหลักฐานเพียงพอที่จะบอกว่าข้อมูล ไม่ ได้กระจายตามปกติ
มีการทดสอบทางสถิติสามแบบที่ใช้กันทั่วไปในการทดสอบภาวะปกติ:
1. การทดสอบ Jarque-Bera
- วิธีดำเนินการทดสอบ Jarque-Bera ใน Excel
- วิธีทำการทดสอบ Jarque-Bera ใน R
- วิธีดำเนินการทดสอบ Jarque-Bera ใน Python
2. การทดสอบชาปิโร-วิลค์
3. การทดสอบโคลโมโกรอฟ-สมีร์นอฟ
- วิธีทำการทดสอบ Kolmogorov-Smirnov ใน Excel
- วิธีทำการทดสอบ Kolmogorov-Smirnov ใน R
- วิธีทำการทดสอบ Kolmogorov-Smirnov ใน Python
จะทำอย่างไรถ้ามีการละเมิดสมมติฐานของภาวะปกติ
หากปรากฎว่าข้อมูลของคุณไม่ได้กระจายตามปกติ คุณมีสองทางเลือก:
1. แปลงข้อมูล
ทางเลือกหนึ่งคือเพียง แปลง ข้อมูลเพื่อให้มีการกระจายตามปกติมากขึ้น การเปลี่ยนแปลงทั่วไป ได้แก่:
- การแปลงบันทึก: แปลงข้อมูลจาก y เป็น log(y)
- การแปลงรากที่สอง: แปลงข้อมูลจาก y เป็น √y
- การแปลงรากที่สาม: แปลงข้อมูลจาก y เป็น y 1/3
- การแปลง Box-Cox: แปลงข้อมูลโดยใช้ ขั้นตอน Box-Cox
โดยการดำเนินการแปลงเหล่านี้ การกระจายค่าข้อมูลโดยทั่วไปจะมีการกระจายแบบปกติมากขึ้น
2. ทำการทดสอบแบบไม่อิงพารามิเตอร์
การทดสอบทางสถิติที่ทำให้สมมติฐานของภาวะปกติเรียกว่า การทดสอบแบบพาราเมตริก แต่ก็มีกลุ่มที่เรียกว่าการทดสอบ แบบไม่อิงพารามิเตอร์ ซึ่งไม่ได้สันนิษฐานว่าเป็นภาวะปกติ
หากปรากฎว่าข้อมูลของคุณไม่ได้กระจายตามปกติ คุณสามารถทำการทดสอบแบบไม่มีพารามิเตอร์ได้ ต่อไปนี้คือการทดสอบทางสถิติทั่วไปในเวอร์ชันที่ไม่ใช่พารามิเตอร์:
การทดสอบพาราเมตริก | เทียบเท่าแบบไม่มีพารามิเตอร์ |
---|---|
ตัวอย่างการทดสอบ | ตัวอย่างการทดสอบยศที่ลงนามของวิลคอกสัน |
การทดสอบทีสองตัวอย่าง | แบบทดสอบแมนน์-วิทนีย์ ยู |
จับคู่ตัวอย่างการทดสอบที | ตัวอย่างการทดสอบอันดับของ Wilcoxon สองตัวอย่าง |
การวิเคราะห์ความแปรปรวนแบบทางเดียว | การทดสอบครัสคาล-วาลลิส |
การทดสอบแบบไม่อิงพารามิเตอร์แต่ละรายการทำให้สามารถดำเนินการทดสอบทางสถิติได้โดยไม่เป็นไปตามสมมติฐานปกติ
แหล่งข้อมูลเพิ่มเติม
สมมติฐานทั้งสี่นี้กำหนดขึ้นในการทดสอบ T
สมมติฐานสี่ประการของการถดถอยเชิงเส้น
สมมติฐานทั้งสี่ของ ANOVA