สิ่งที่เรียกว่า "แข็งแกร่ง"; ความสัมพันธ์?
ในทางสถิติ เรามักจะพยายามทำความเข้าใจว่าตัวแปรสองตัวมีความสัมพันธ์กันอย่างไร ตัวอย่างเช่น เราอาจต้องการทราบ:
- อะไรคือความสัมพันธ์ระหว่างจำนวนชั่วโมงที่นักเรียนเรียนกับเกรดที่พวกเขาได้รับจากการสอบ?
- อะไรคือความสัมพันธ์ระหว่างอุณหภูมิภายนอกกับจำนวนโคนไอศกรีมที่ขายโดยรถขายอาหาร
- ความสัมพันธ์ระหว่างการใช้จ่ายด้านการตลาดกับรายได้รวมที่ได้รับจากธุรกิจที่กำหนดคืออะไร
ในแต่ละสถานการณ์เหล่านี้ เรากำลังพยายามทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัวที่แตกต่างกัน
ในสถิติ วิธีหนึ่งที่พบบ่อยที่สุดในการหาปริมาณความสัมพันธ์ระหว่างตัวแปรสองตัวคือการใช้ สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน ซึ่งเป็นหน่วยวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรสอง ตัว มีค่าระหว่าง -1 ถึง 1 โดยที่:
- -1 บ่งชี้ถึงความสัมพันธ์เชิงเส้นเชิงลบอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
- 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
- 1 บ่งชี้ความสัมพันธ์เชิงเส้นเชิงบวกอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
มักเขียนแทนด้วย r ตัวเลขนี้ช่วยให้เราเข้าใจความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรสองตัว ยิ่ง r เพิ่มเติมจากศูนย์ ความสัมพันธ์ระหว่างตัวแปรทั้งสองก็จะยิ่งแข็งแกร่งขึ้น
สิ่งสำคัญคือต้องทราบว่าตัวแปรสองตัวสามารถมีความสัมพันธ์ เชิงบวก ที่แข็งแกร่งหรือความสัมพันธ์ เชิงลบ ที่แข็งแกร่งได้
ความสัมพันธ์เชิงบวกที่แข็งแกร่ง: เมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้น ค่าของตัวแปรอีกตัวหนึ่งก็จะเพิ่มขึ้นในลักษณะเดียวกัน ตัวอย่างเช่น ยิ่งนักเรียนใช้เวลาเรียนมากเท่าไร คะแนนสอบก็จะยิ่งสูงขึ้นเท่านั้น ชั่วโมงเรียนและคะแนนสอบมีความสัมพันธ์เชิงบวกอย่างมาก
ความสัมพันธ์เชิงลบที่แข็งแกร่ง: เมื่อค่าของตัวแปรหนึ่งเพิ่มขึ้น ค่าของตัวแปรอื่นมีแนวโน้มที่จะลดลง ตัวอย่างเช่น ยิ่งแม่ไก่อายุมากขึ้น มีแนวโน้มที่จะผลิตไข่น้อยลง อายุไก่และการผลิตไข่มีความสัมพันธ์เชิงลบอย่างมาก
ตารางต่อไปนี้แสดงกฎทั่วไปสำหรับการตีความจุดแข็งของความสัมพันธ์ระหว่างตัวแปรสองตัวตามค่าของ r :
ค่าสัมบูรณ์ของ r | ความแข็งแกร่งของความสัมพันธ์ |
---|---|
อาร์ < 0.25 | ไม่มีความสัมพันธ์ |
0.25 < ร < 0.5 | ความสัมพันธ์ที่อ่อนแอ |
0.5 < ร < 0.75 | ความสัมพันธ์ระดับปานกลาง |
ร > 0.75 | ความสัมพันธ์ที่แข็งแกร่ง |
ความสัมพันธ์ระหว่างตัวแปรทั้งสองถือว่ามีความแข็งแกร่งหากค่าสัมบูรณ์ของ r มากกว่า 0.75 อย่างไรก็ตาม คำจำกัดความของความสัมพันธ์ที่ “แข็งแกร่ง” อาจแตกต่างกันไปในแต่ละฟิลด์
ทางการแพทย์
ตัวอย่างเช่น ในวงการแพทย์ คำจำกัดความของความสัมพันธ์ที่ “เข้มแข็ง” มักจะต่ำกว่ามาก หากความสัมพันธ์ระหว่างการกินยาบางชนิดกับการลดอาการหัวใจวายคือ r = 0.3 ก็อาจถือเป็นความสัมพันธ์ที่ “เป็นบวกเล็กน้อย” ในด้านอื่น ๆ แต่ในทางการแพทย์มีความสำคัญพอที่จะคุ้มค่าที่จะรับประทานยาเพื่อลดโอกาสที่จะเกิด มีอาการหัวใจวาย
ทรัพยากรมนุษย์
ในด้านอื่น เช่น ทรัพยากรบุคคล สามารถใช้ความสัมพันธ์ที่ต่ำกว่าได้บ่อยขึ้น ตัวอย่างเช่น ความสัมพันธ์ระหว่างเกรดวิทยาลัยกับผลการปฏิบัติงานมีค่าประมาณ r = 0.16 นั่นค่อนข้างน้อย แต่สำคัญเพียงพอที่บริษัทควรพิจารณาในระหว่างขั้นตอนการสัมภาษณ์เป็นอย่างน้อย
เทคโนโลยี
และในสาขาเช่นเทคโนโลยี ความสัมพันธ์ระหว่างตัวแปรอาจต้องสูงกว่านี้มากในบางกรณีจึงจะถือว่า “แข็งแกร่ง” ตัวอย่างเช่น หากบริษัทสร้างรถยนต์ไร้คนขับและความสัมพันธ์ระหว่างการตัดสินใจเลี้ยวของรถและความน่าจะเป็นที่จะเกิดอุบัติเหตุคือ r = 0.95 นี่อาจต่ำเกินไปที่รถจะถือว่าปลอดภัยเนื่องจากผลจากการทำ รถยนต์ขับเคลื่อนอัตโนมัติคือ r = 0.95 การตัดสินใจที่ไม่ดีอาจถึงแก่ชีวิตได้
ดูความสัมพันธ์
ไม่ว่าคุณจะทำงานสาขาไหน การสร้างแผนภาพกระจายของตัวแปรสองตัวที่คุณกำลังศึกษาอยู่ก็มีประโยชน์ เพื่อที่อย่างน้อยคุณจะได้ตรวจสอบความสัมพันธ์ระหว่างตัวแปรทั้งสองด้วยสายตาได้
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งแสดงส่วนสูงและน้ำหนักของบุคคล 12 คน:
เป็นเรื่องยากเล็กน้อยที่จะเข้าใจความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้เพียงแค่ดูข้อมูลดิบ อย่างไรก็ตาม จะเข้าใจความสัมพันธ์ได้ง่ายกว่ามากหากเราสร้างแผนภูมิกระจายที่มีความสูงบนแกน x และน้ำหนักบนแกน y:
มีความสัมพันธ์เชิงบวกอย่างชัดเจนระหว่างตัวแปรทั้งสอง
การสร้างพอยต์คลาวด์เป็นความคิดที่ดีด้วยเหตุผลสองประการ:
(1) Scatterplot ช่วยให้คุณสามารถระบุค่าผิดปกติที่ส่งผลต่อความสัมพันธ์ได้
ค่าผิดปกติที่รุนแรงสามารถเปลี่ยนค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันได้อย่างมาก ลองพิจารณาตัวอย่างด้านล่างนี้ ซึ่งตัวแปร X และ Y มีค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันเป็น r = 0.00
แต่ตอนนี้ลองจินตนาการว่าเรามีค่าผิดปกติในชุดข้อมูล:
ค่าผิดปกตินี้ทำให้ความสัมพันธ์เป็น r = 0.878 จุดข้อมูลเดียวนี้เปลี่ยนความสัมพันธ์โดยสิ้นเชิงและทำให้ดูเหมือนว่ามีความสัมพันธ์ที่ชัดเจนระหว่างตัวแปร X และ Y ทั้งที่จริงๆ แล้วไม่มีเลย
(2) Scatterplot สามารถช่วยคุณระบุความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรได้
ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันเพียงบอกเราว่าตัวแปรสองตัวมีความสัมพันธ์ เชิงเส้นตรง หรือไม่ แต่ถึงแม้ว่าค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจะบอกเราว่าตัวแปรสองตัวนั้นไม่มีความสัมพันธ์กัน พวกมันก็ยังสามารถมีความสัมพันธ์แบบไม่เชิงเส้นได้ นี่เป็นอีกสาเหตุหนึ่งว่าทำไมการสร้างแผนภาพกระจายจึงมีประโยชน์
ตัวอย่างเช่น พิจารณาแผนภาพกระจายด้านล่างระหว่างตัวแปร X และ Y ซึ่งมีความสัมพันธ์กันคือ r = 0.00
เห็นได้ชัดว่าตัวแปรไม่มีความสัมพันธ์เชิงเส้น แต่ มี ความสัมพันธ์แบบไม่เชิงเส้น ค่า y เป็นเพียงค่า x กำลังสอง ค่าสัมประสิทธิ์สหสัมพันธ์เพียงอย่างเดียวไม่สามารถตรวจพบความสัมพันธ์นี้ได้ แต่แผนภาพกระจายสามารถทำได้
บทสรุป
สรุป:
- โดยทั่วไปแล้ว ความสัมพันธ์ที่มากกว่า 0.75 ถือเป็นความสัมพันธ์ที่ “แข็งแกร่ง” ระหว่างตัวแปรสองตัว
- อย่างไรก็ตาม หลักการทั่วไปนี้อาจแตกต่างกันไปในแต่ละพื้นที่ ตัวอย่างเช่น ความสัมพันธ์ที่อ่อนแอกว่ามากอาจถือว่ามีความแข็งแกร่งในด้านการแพทย์เมื่อเทียบกับด้านเทคโนโลยี เป็นการดีที่สุดที่จะใช้ความเชี่ยวชาญเฉพาะโดเมนเพื่อตัดสินใจว่าสิ่งใดถือว่าแข็งแกร่ง
- เมื่อใช้ความสัมพันธ์เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปร 2 ตัว การสร้างแผนภาพกระจายจะเป็นประโยชน์เพื่อให้คุณสามารถระบุค่าผิดปกติในชุดข้อมูลตลอดจนความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่อาจเกิดขึ้นได้
แหล่งข้อมูลเพิ่มเติม
ความสัมพันธ์แบบ “อ่อนแอ” คืออะไร?
เครื่องคำนวณเมทริกซ์สหสัมพันธ์
วิธีอ่านเมทริกซ์สหสัมพันธ์