สมมติฐานทั้งห้าข้อเกี่ยวกับความสัมพันธ์ของเพียร์สัน
ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (หรือเรียกอีกอย่างว่า “ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างผลิตภัณฑ์-ช่วงเวลา”) จะวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
จะใช้ค่าระหว่าง -1 ถึง 1 เสมอโดยที่:
- -1 บ่งชี้ถึงความสัมพันธ์เชิงเส้นเชิงลบอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
- 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
- 1 บ่งชี้ความสัมพันธ์เชิงเส้นเชิงบวกอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
อย่างไรก็ตาม ก่อนที่จะคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างตัวแปรสองตัว เราต้องแน่ใจว่าเป็นไปตามสมมติฐานทั้งห้าประการ:
1. ระดับการวัด: ควรวัดตัวแปรทั้งสองที่ระดับ ช่วงเวลา หรือ อัตราส่วน
2. ความสัมพันธ์เชิงเส้น: ต้องมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทั้งสอง
3. Normality: ตัวแปรทั้งสองควรมีการแจกแจงแบบปกติโดยประมาณ
4. คู่ที่เกี่ยวข้อง: แต่ละการสังเกตในชุดข้อมูลต้องมีคู่ของค่า
5. ไม่มีค่าผิดปกติ: ไม่ควรมีค่าผิดปกติที่รุนแรงในชุดข้อมูล
ในบทความนี้ เราจะให้คำอธิบายของแต่ละสมมติฐาน รวมถึงวิธีพิจารณาว่าเป็นไปตามสมมติฐานหรือไม่
สมมติฐานที่ 1: ระดับการวัด
ในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างตัวแปรสองตัว จะต้องวัดตัวแปรทั้งสองที่ระดับ ช่วงเวลา หรือ อัตราส่วน
ภาพต่อไปนี้ให้คำอธิบายโดยย่อเกี่ยวกับระดับสี่ระดับที่สามารถวัดตัวแปรได้:

ต่อไปนี้คือตัวอย่างบางส่วนของตัวแปรที่สามารถวัดได้ในระดับ ช่วงเวลา :
- อุณหภูมิ: วัดเป็นฟาเรนไฮต์หรือเซลเซียส
- คะแนนเครดิต: วัดจาก 300 ถึง 850
- คะแนน SAT: วัดจาก 400 ถึง 1,600
ต่อไปนี้คือตัวอย่างบางส่วนของตัวแปรที่สามารถวัดได้ในระดับ อัตราส่วน :
- ความสูง: วัดเป็นเซนติเมตร นิ้ว ฟุต ฯลฯ
- น้ำหนัก: วัดเป็นกิโลกรัม ปอนด์ ฯลฯ
- ความยาว: วัดเป็นเซนติเมตร นิ้ว ฟุต ฯลฯ
หากมีการวัดตัวแปรในระดับ ลำดับ คุณจะต้องคำนวณ ค่าสัมประสิทธิ์สหสัมพันธ์สเปียร์แมน ระหว่างตัวแปรเหล่านั้น
ที่เกี่ยวข้อง: ระดับการวัด: ที่กำหนด ลำดับ ช่วงเวลา และอัตราส่วน
สมมติฐานที่ 2: ความสัมพันธ์เชิงเส้น
ในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างตัวแปรสองตัว จะต้องมีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสอง
วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือเพียงสร้างแผนภาพกระจายของตัวแปรทั้งสอง หากจุดบนโครงเรื่องเป็นเส้นตรงโดยประมาณ แสดงว่ามีความสัมพันธ์เชิงเส้น:

อย่างไรก็ตาม หากจุดต่างๆ กระจายแบบสุ่มทั่วทั้งโครงเรื่องหรือมีความสัมพันธ์ประเภทอื่น (เช่น สมการกำลังสอง) ก็จะไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปร:

ในกรณีนี้ ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจะจับความสัมพันธ์ระหว่างตัวแปรได้ไม่เพียงพอ
สมมติฐานที่ 3: ความปกติ
ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันยังถือว่าตัวแปรทั้งสองมี การกระจายแบบปกติโดยประมาณ
คุณสามารถตรวจสอบสมมติฐานนี้ด้วยสายตาได้โดยการสร้างฮิสโตแกรมหรือพล็อต QQ สำหรับแต่ละตัวแปร
1. ฮิสโตแกรม
หากฮิสโตแกรมของชุดข้อมูลเป็นรูประฆังโดยประมาณ ก็มีแนวโน้มว่าข้อมูลจะมีการกระจายตามปกติ

2. คิวคิวแลนด์
พล็อต QQ ย่อมาจาก “ควอนไทล์-ควอนไทล์” คือพล็อตประเภทหนึ่งที่แสดงควอนไทล์เชิงทฤษฎีตามแนวแกน x (นั่นคือ ตำแหน่งที่ข้อมูลของคุณจะอยู่หากเป็นไปตามการแจกแจงแบบปกติ) และควอนไทล์ของตัวอย่างตามแนวแกน y (เช่น ข้อมูลของคุณอยู่ที่ใด)
หากค่าข้อมูลเป็นเส้นตรงประมาณ 45 องศา ถือว่าข้อมูลมีการกระจายตามปกติ

คุณยังสามารถทำการทดสอบทางสถิติอย่างเป็นทางการเพื่อพิจารณาว่าตัวแปรมีการแจกแจงตามปกติหรือไม่
หาก ค่า p ของการทดสอบต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น α = 0.05) แสดงว่าคุณมีหลักฐานเพียงพอที่จะบอกว่าข้อมูล ไม่ ได้กระจายตามปกติ
มีการทดสอบทางสถิติสามแบบที่ใช้กันทั่วไปในการทดสอบภาวะปกติ:
1. การทดสอบ Jarque-Bera
- วิธีดำเนินการทดสอบ Jarque-Bera ใน Excel
- วิธีทำการทดสอบ Jarque-Bera ใน R
- วิธีดำเนินการทดสอบ Jarque-Bera ใน Python
2. การทดสอบชาปิโร-วิลค์
3. การทดสอบโคลโมโกรอฟ-สมีร์นอฟ
สมมติฐานที่ 4: คู่ที่เกี่ยวข้อง
ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันยังถือว่า การสังเกต แต่ละครั้งในชุดข้อมูลต้องมีค่าคู่กัน
สมมติฐานนี้ง่ายต่อการตรวจสอบ ตัวอย่างเช่น หากคุณกำลังคำนวณความสัมพันธ์ระหว่างน้ำหนักและส่วนสูง เพียงตรวจสอบว่าการสังเกตแต่ละรายการในชุดข้อมูลมีหน่วยวัดน้ำหนักและส่วนสูง
สมมติฐานที่ 5: ไม่มีค่าผิดปกติ
ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันยังถือว่าชุดข้อมูลไม่มีค่าผิดปกติที่รุนแรง เนื่องจากค่าผิดปกติส่งผลกระทบอย่างมากต่อการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์
เพื่อแสดงให้เห็นสิ่งนี้ ให้พิจารณาชุดข้อมูลต่อไปนี้:

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันระหว่าง X และ Y คือ 0.949
อย่างไรก็ตาม สมมติว่าเรามีค่าผิดปกติในชุดข้อมูล:

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันระหว่าง X และ Y อยู่ที่ 0.711
ค่าผิดปกติจะเปลี่ยนค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันระหว่างตัวแปรทั้งสองอย่างมีนัยสำคัญ ในกรณีนี้ อาจเป็นการสมควรที่จะลบค่าผิดปกติออกจากชุดข้อมูล
ที่เกี่ยวข้อง: คู่มือฉบับสมบูรณ์: เมื่อใดจึงควรลบค่าผิดปกติในข้อมูล
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ของ Pearson:
ความรู้เบื้องต้นเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์เพียร์สัน
วิธีรายงานความสัมพันธ์ของเพียร์สันในรูปแบบ APA
วิธีการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันด้วยตนเอง