สมมติฐานทั้งห้าข้อเกี่ยวกับความสัมพันธ์ของเพียร์สัน


ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (หรือเรียกอีกอย่างว่า “ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างผลิตภัณฑ์-ช่วงเวลา”) จะวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว

จะใช้ค่าระหว่าง -1 ถึง 1 เสมอโดยที่:

  • -1 บ่งชี้ถึงความสัมพันธ์เชิงเส้นเชิงลบอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
  • 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
  • 1 บ่งชี้ความสัมพันธ์เชิงเส้นเชิงบวกอย่างสมบูรณ์ระหว่างตัวแปรสองตัว

อย่างไรก็ตาม ก่อนที่จะคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างตัวแปรสองตัว เราต้องแน่ใจว่าเป็นไปตามสมมติฐานทั้งห้าประการ:

1. ระดับการวัด: ควรวัดตัวแปรทั้งสองที่ระดับ ช่วงเวลา หรือ อัตราส่วน

2. ความสัมพันธ์เชิงเส้น: ต้องมีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทั้งสอง

3. Normality: ตัวแปรทั้งสองควรมีการแจกแจงแบบปกติโดยประมาณ

4. คู่ที่เกี่ยวข้อง: แต่ละการสังเกตในชุดข้อมูลต้องมีคู่ของค่า

5. ไม่มีค่าผิดปกติ: ไม่ควรมีค่าผิดปกติที่รุนแรงในชุดข้อมูล

ในบทความนี้ เราจะให้คำอธิบายของแต่ละสมมติฐาน รวมถึงวิธีพิจารณาว่าเป็นไปตามสมมติฐานหรือไม่

สมมติฐานที่ 1: ระดับการวัด

ในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างตัวแปรสองตัว จะต้องวัดตัวแปรทั้งสองที่ระดับ ช่วงเวลา หรือ อัตราส่วน

ภาพต่อไปนี้ให้คำอธิบายโดยย่อเกี่ยวกับระดับสี่ระดับที่สามารถวัดตัวแปรได้:

ต่อไปนี้คือตัวอย่างบางส่วนของตัวแปรที่สามารถวัดได้ในระดับ ช่วงเวลา :

  • อุณหภูมิ: วัดเป็นฟาเรนไฮต์หรือเซลเซียส
  • คะแนนเครดิต: วัดจาก 300 ถึง 850
  • คะแนน SAT: วัดจาก 400 ถึง 1,600

ต่อไปนี้คือตัวอย่างบางส่วนของตัวแปรที่สามารถวัดได้ในระดับ อัตราส่วน :

  • ความสูง: วัดเป็นเซนติเมตร นิ้ว ฟุต ฯลฯ
  • น้ำหนัก: วัดเป็นกิโลกรัม ปอนด์ ฯลฯ
  • ความยาว: วัดเป็นเซนติเมตร นิ้ว ฟุต ฯลฯ

หากมีการวัดตัวแปรในระดับ ลำดับ คุณจะต้องคำนวณ ค่าสัมประสิทธิ์สหสัมพันธ์สเปียร์แมน ระหว่างตัวแปรเหล่านั้น

ที่เกี่ยวข้อง: ระดับการวัด: ที่กำหนด ลำดับ ช่วงเวลา และอัตราส่วน

สมมติฐานที่ 2: ความสัมพันธ์เชิงเส้น

ในการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันระหว่างตัวแปรสองตัว จะต้องมีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสอง

วิธีที่ง่ายที่สุดในการทดสอบสมมติฐานนี้คือเพียงสร้างแผนภาพกระจายของตัวแปรทั้งสอง หากจุดบนโครงเรื่องเป็นเส้นตรงโดยประมาณ แสดงว่ามีความสัมพันธ์เชิงเส้น:

อย่างไรก็ตาม หากจุดต่างๆ กระจายแบบสุ่มทั่วทั้งโครงเรื่องหรือมีความสัมพันธ์ประเภทอื่น (เช่น สมการกำลังสอง) ก็จะไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปร:

ในกรณีนี้ ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจะจับความสัมพันธ์ระหว่างตัวแปรได้ไม่เพียงพอ

สมมติฐานที่ 3: ความปกติ

ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันยังถือว่าตัวแปรทั้งสองมี การกระจายแบบปกติโดยประมาณ

คุณสามารถตรวจสอบสมมติฐานนี้ด้วยสายตาได้โดยการสร้างฮิสโตแกรมหรือพล็อต QQ สำหรับแต่ละตัวแปร

1. ฮิสโตแกรม

หากฮิสโตแกรมของชุดข้อมูลเป็นรูประฆังโดยประมาณ ก็มีแนวโน้มว่าข้อมูลจะมีการกระจายตามปกติ

2. คิวคิวแลนด์

พล็อต QQ ย่อมาจาก “ควอนไทล์-ควอนไทล์” คือพล็อตประเภทหนึ่งที่แสดงควอนไทล์เชิงทฤษฎีตามแนวแกน x (นั่นคือ ตำแหน่งที่ข้อมูลของคุณจะอยู่หากเป็นไปตามการแจกแจงแบบปกติ) และควอนไทล์ของตัวอย่างตามแนวแกน y (เช่น ข้อมูลของคุณอยู่ที่ใด)

หากค่าข้อมูลเป็นเส้นตรงประมาณ 45 องศา ถือว่าข้อมูลมีการกระจายตามปกติ

คุณยังสามารถทำการทดสอบทางสถิติอย่างเป็นทางการเพื่อพิจารณาว่าตัวแปรมีการแจกแจงตามปกติหรือไม่

หาก ค่า p ของการทดสอบต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น α = 0.05) แสดงว่าคุณมีหลักฐานเพียงพอที่จะบอกว่าข้อมูล ไม่ ได้กระจายตามปกติ

มีการทดสอบทางสถิติสามแบบที่ใช้กันทั่วไปในการทดสอบภาวะปกติ:

1. การทดสอบ Jarque-Bera

2. การทดสอบชาปิโร-วิลค์

3. การทดสอบโคลโมโกรอฟ-สมีร์นอฟ

สมมติฐานที่ 4: คู่ที่เกี่ยวข้อง

ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันยังถือว่า การสังเกต แต่ละครั้งในชุดข้อมูลต้องมีค่าคู่กัน

สมมติฐานนี้ง่ายต่อการตรวจสอบ ตัวอย่างเช่น หากคุณกำลังคำนวณความสัมพันธ์ระหว่างน้ำหนักและส่วนสูง เพียงตรวจสอบว่าการสังเกตแต่ละรายการในชุดข้อมูลมีหน่วยวัดน้ำหนักและส่วนสูง

สมมติฐานที่ 5: ไม่มีค่าผิดปกติ

ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันยังถือว่าชุดข้อมูลไม่มีค่าผิดปกติที่รุนแรง เนื่องจากค่าผิดปกติส่งผลกระทบอย่างมากต่อการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์

เพื่อแสดงให้เห็นสิ่งนี้ ให้พิจารณาชุดข้อมูลต่อไปนี้:

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันระหว่าง X และ Y คือ 0.949

อย่างไรก็ตาม สมมติว่าเรามีค่าผิดปกติในชุดข้อมูล:

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันระหว่าง X และ Y อยู่ที่ 0.711

ค่าผิดปกติจะเปลี่ยนค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันระหว่างตัวแปรทั้งสองอย่างมีนัยสำคัญ ในกรณีนี้ อาจเป็นการสมควรที่จะลบค่าผิดปกติออกจากชุดข้อมูล

ที่เกี่ยวข้อง: คู่มือฉบับสมบูรณ์: เมื่อใดจึงควรลบค่าผิดปกติในข้อมูล

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ของ Pearson:

ความรู้เบื้องต้นเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์เพียร์สัน
วิธีรายงานความสัมพันธ์ของเพียร์สันในรูปแบบ APA
วิธีการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันด้วยตนเอง

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *