บทนำโดยย่อเกี่ยวกับการวิเคราะห์ไบวาเรียต
คำว่า การวิเคราะห์ไบวาเรียต หมายถึงการวิเคราะห์ตัวแปรสองตัว คุณสามารถจำสิ่งนี้ได้เพราะคำนำหน้า “bi” หมายถึง “สอง”
เป้าหมายของการวิเคราะห์ตัวแปรคู่คือการทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว คุณสามารถเปรียบเทียบการวิเคราะห์ประเภทนี้กับสิ่งต่อไปนี้:
- การวิเคราะห์ตัวแปรเดียว : การวิเคราะห์ตัวแปรเดียว
- การวิเคราะห์หลายตัวแปร: การวิเคราะห์ตัวแปรตั้งแต่สองตัวขึ้นไป
มีสามวิธีทั่วไปในการวิเคราะห์ตัวแปรคู่:
1. แปลงกระจาย
2. ค่าสัมประสิทธิ์สหสัมพันธ์
3. การถดถอยเชิงเส้นอย่างง่าย
บทช่วยสอนนี้ให้ตัวอย่างการวิเคราะห์ไบวาเรียตแต่ละประเภทโดยใช้ชุดข้อมูลต่อไปนี้ซึ่งมีข้อมูลเกี่ยวกับตัวแปรสองตัว: (1) ชั่วโมงที่ใช้ในการศึกษา และ (2) คะแนนสอบที่ได้รับจากนักเรียนที่แตกต่างกัน 20 คน:
1. เมฆชี้
Scatterplot ช่วยให้สามารถวิเคราะห์ตัวแปรคู่ได้อย่างเห็นภาพ ช่วยให้เราเห็นความสัมพันธ์ระหว่างตัวแปรสองตัวโดยการวางค่าของตัวแปรตัวหนึ่งบนแกน x และค่าของตัวแปรอีกตัวบนแกน y
ในแผนภาพกระจายด้านล่าง เราวางชั่วโมงที่ศึกษาไว้บนแกน x และผลการสอบบนแกน y:
เราจะเห็นได้อย่างชัดเจนว่ามีความสัมพันธ์เชิงบวกระหว่างตัวแปรทั้งสอง: เมื่อจำนวนชั่วโมงเรียนเพิ่มขึ้น คะแนนสอบก็มีแนวโน้มที่จะเพิ่มขึ้นเช่นกัน
2. ค่าสัมประสิทธิ์สหสัมพันธ์
ค่าสัมประสิทธิ์สหสัมพันธ์เป็นอีกวิธีหนึ่งในการวิเคราะห์ตัวแปรคู่ ประเภทของค่าสัมประสิทธิ์สหสัมพันธ์ที่พบบ่อยที่สุดคือ ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ซึ่งเป็นการวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว มีค่าระหว่าง -1 ถึง 1 โดยที่:
- -1 บ่งชี้ถึงความสัมพันธ์เชิงเส้นเชิงลบอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
- 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
- 1 บ่งชี้ความสัมพันธ์เชิงเส้นเชิงบวกอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
ตัวชี้วัดง่ายๆ นี้ช่วยให้เราเข้าใจได้ว่าตัวแปรสองตัวมีความสัมพันธ์กันอย่างไร ในทางปฏิบัติ เรามักจะใช้แผนภาพกระจาย และ ค่าสัมประสิทธิ์สหสัมพันธ์เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว เพื่อให้เราเห็นภาพ และ ระบุความสัมพันธ์ของตัวแปรทั้งสองได้
3. การถดถอยเชิงเส้นอย่างง่าย
วิธีที่สามในการวิเคราะห์ตัวแปรคู่คือการใช้ การถดถอยเชิงเส้นอย่างง่าย
เมื่อใช้วิธีการนี้ เราเลือกตัวแปรหนึ่งตัวเป็น ตัวแปรอธิบาย และอีกตัวแปรหนึ่งเป็น ตัวแปรตอบสนอง จากนั้นเราจะค้นหาแถวที่ “เหมาะสม” กับชุดข้อมูลมากที่สุด ซึ่งเราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ที่แน่นอนระหว่างตัวแปรทั้งสองได้
ตัวอย่างเช่น แถวที่เหมาะสมที่สุดสำหรับชุดข้อมูลด้านบนคือ:
คะแนนสอบ = 69.07 + 3.85*(จำนวนชั่วโมงเรียน)
ซึ่งหมายความว่าแต่ละชั่วโมงที่เรียนเพิ่มเติมจะสัมพันธ์กับคะแนนสอบเฉลี่ยที่เพิ่มขึ้น 3.85 เมื่อใช้โมเดลการถดถอยเชิงเส้นนี้ เราจะสามารถหาความสัมพันธ์ที่แน่นอนระหว่างชั่วโมงเรียนกับเกรดการสอบได้
ที่เกี่ยวข้อง: วิธีการดำเนินการถดถอยเชิงเส้นอย่างง่ายใน Excel
บทสรุป
การวิเคราะห์ตัวแปรคู่เป็นหนึ่งในการวิเคราะห์ที่ใช้บ่อยที่สุดในสถิติ เนื่องจากเรามักต้องการเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว
การใช้แผนภาพกระจาย สัมประสิทธิ์สหสัมพันธ์ และการถดถอยเชิงเส้นอย่างง่าย ทำให้เราสามารถเห็นภาพและหาปริมาณความสัมพันธ์ระหว่างตัวแปรสองตัวได้
บ่อยครั้งที่ทั้งสามวิธีนี้ใช้ร่วมกันในการวิเคราะห์เพื่อให้ได้ภาพที่สมบูรณ์ของความสัมพันธ์ระหว่างตัวแปรทั้งสอง ดังนั้นจึงเป็นความคิดที่ดีที่จะทำความคุ้นเคยกับแต่ละวิธี