สัมประสิทธิ์สหสัมพันธ์เพียร์สัน


ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน (หรือเรียกอีกอย่างว่า “ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างผลิตภัณฑ์-ช่วงเวลา”) คือการวัดความสัมพันธ์เชิงเส้นระหว่างตัวแปร X และ Y สองตัว โดยมีค่าระหว่าง -1 ถึง 1 โดยที่:

  • -1 บ่งชี้ถึงความสัมพันธ์เชิงเส้นเชิงลบอย่างสมบูรณ์ระหว่างตัวแปรสองตัว
  • 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัว
  • 1 บ่งชี้ความสัมพันธ์เชิงเส้นเชิงบวกอย่างสมบูรณ์ระหว่างตัวแปรสองตัว

สูตรการหาสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน

สูตรในการค้นหาสัมประสิทธิ์สหสัมพันธ์เพียร์สัน แทนด้วย r สำหรับตัวอย่างข้อมูลคือ ( ผ่าน Wikipedia ):

คุณอาจไม่ต้องคำนวณสูตรนี้ด้วยตนเองเลยเพราะคุณสามารถใช้ซอฟต์แวร์คำนวณแทนได้ แต่การทำความเข้าใจว่าสูตรนี้ทำอะไรได้บ้างโดยดูตัวอย่างต่างๆ

สมมติว่าเรามีชุดข้อมูลต่อไปนี้:

หากเราพล็อตคู่เหล่านี้ (X, Y) บนแผนภาพกระจาย มันจะมีลักษณะดังนี้:

ตัวอย่างความสัมพันธ์ของเพียร์สันบนแผนภาพกระจาย

เพียงดูแผนภาพกระจายนี้ เราจะเห็นว่ามีความสัมพันธ์เชิงบวกระหว่างตัวแปร X และ Y: เมื่อ X เพิ่มขึ้น Y ก็มีแนวโน้มที่จะเพิ่มขึ้นเช่นกัน แต่เพื่อที่จะหาจำนวนที่แน่นอนของความสัมพันธ์เชิงบวกของตัวแปรทั้งสองนี้ เราจำเป็นต้องค้นหาสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน

เรามาเน้นที่ตัวเศษของสูตรกัน:

สำหรับแต่ละคู่ (X, Y) ในชุดข้อมูลของเรา เราจำเป็นต้องค้นหาความแตกต่างระหว่างค่า x และค่า x เฉลี่ย ความแตกต่างระหว่างค่า y และค่า y เฉลี่ย แล้วคูณตัวเลขทั้งสองนี้เข้าด้วยกัน

ตัวอย่างเช่น คู่แรกของเรา (X, Y) คือ (2, 2) ค่าเฉลี่ยของ x ในชุดข้อมูลนี้คือ 5 และค่าเฉลี่ยของ y ในชุดข้อมูลนี้คือ 7 ดังนั้นความแตกต่างระหว่างค่า x ของคู่นี้กับค่าเฉลี่ยของ x คือ 2 – 5 = -3 ความแตกต่างระหว่างค่า y ของคู่นี้กับค่า y เฉลี่ยคือ 2 – 7 = -5 จากนั้นเมื่อเราคูณตัวเลขสองตัวนี้ เราจะได้ -3 * -5 = 15

ความสัมพันธ์แบบเพียร์สันด้วยมือ

นี่คือภาพรวมของสิ่งที่เราเพิ่งทำ:

ตัวอย่างสหสัมพันธ์เพียร์สัน

จากนั้นทำสิ่งนี้กับแต่ละคู่:

ตัวอย่างสหสัมพันธ์เพียร์สันตัวอย่างความสัมพันธ์ของเพียร์สันบนแผนภาพกระจาย

ขั้นตอนสุดท้ายในการรับตัวเศษของสูตรคือการบวกค่าเหล่านี้ทั้งหมดเข้าด้วยกัน:

15 + 3 +3 + 15 = 36

จากนั้นตัวส่วนของสูตรบอกให้เราหาผลรวมของผลต่างกำลังสองทั้งหมดของ x และ y จากนั้นนำตัวเลขทั้งสองนี้มาคูณกัน จากนั้นหารากที่สอง:

ก่อนอื่น เราจะหาผลรวมของกำลังสองของส่วนต่างของ x และ y:

ต่อไป เราจะคูณตัวเลขสองตัวนี้ด้วยกัน: 20 * 68 = 1,360

สุดท้าย เราจะหารากที่สอง: √ 1,360 = 36.88

เราจึงพบว่าตัวเศษของสูตรคือ 36 และตัวส่วนคือ 36.88 ซึ่งหมายความว่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันของเราคือ r = 36 / 36.88 = 0.976

จำนวนนี้ใกล้กับ 1 ซึ่งบ่งชี้ว่ามีความสัมพันธ์เชิงเส้นเชิงบวกที่ชัดเจนระหว่างตัวแปร X และ Y ซึ่งเป็นการยืนยันความสัมพันธ์ที่เราสังเกตเห็นในแผนภาพกระจาย

ดูความสัมพันธ์

โปรดจำไว้ว่าค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันบอกเราถึง ประเภท ของความสัมพันธ์เชิงเส้น (บวก ลบ ไม่มี) ระหว่างตัวแปรสองตัว รวมถึง จุดแข็ง ของความสัมพันธ์นี้ (อ่อน ปานกลาง และรุนแรง)

เมื่อเราสร้างแผนภาพกระจายของตัวแปรสองตัว เราจะ เห็น ความสัมพันธ์ที่แท้จริงระหว่างตัวแปรสองตัว ต่อไปนี้เป็นความสัมพันธ์เชิงเส้นหลายประเภทที่เราอาจสังเกตเห็น:

ความสัมพันธ์เชิงบวกที่แข็งแกร่ง: เมื่อตัวแปรบนแกน x เพิ่มขึ้น ตัวแปรบนแกน y ก็จะเพิ่มขึ้นเช่นกัน ประเด็นต่างๆ กระจุกตัวกันอย่างใกล้ชิด บ่งบอกถึงความสัมพันธ์อันแน่นแฟ้น

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน: 0.94

ความสัมพันธ์ที่อ่อนแอและเป็นเชิงบวก: เมื่อตัวแปรบนแกน x เพิ่มขึ้น ตัวแปรบนแกน y ก็จะเพิ่มขึ้นเช่นกัน แต้มค่อนข้างกระจัดกระจายบ่งบอกถึงความสัมพันธ์ที่อ่อนแอ

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน: 0.44

ไม่มีความสัมพันธ์: ไม่มีความสัมพันธ์ที่ชัดเจน (บวกหรือลบ) ระหว่างตัวแปร

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน: 0.03

ความสัมพันธ์เชิงลบที่แข็งแกร่ง: เมื่อตัวแปรบนแกน x เพิ่มขึ้น ตัวแปรบนแกน y จะลดลง ประเด็นอัดแน่นบ่งบอกถึงความสัมพันธ์อันแน่นแฟ้น

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน: -0.87

ความสัมพันธ์ที่อ่อนแอและเป็นลบ: เมื่อตัวแปรบนแกน x เพิ่มขึ้น ตัวแปรบนแกน y จะลดลง แต้มค่อนข้างกระจัดกระจายบ่งบอกถึงความสัมพันธ์ที่อ่อนแอ

ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน: – 0.46

การทดสอบความสำคัญของสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน

เมื่อเราค้นหาค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับชุดข้อมูล เรามักจะทำงานกับ ตัวอย่าง ข้อมูลจาก ประชากรกลุ่ม ใหญ่ ซึ่งหมายความว่า มีความเป็นไปได้ที่จะค้นหาความสัมพันธ์ที่ไม่เป็นศูนย์สำหรับตัวแปรสองตัว แม้ว่าตัวแปรทั้งสองจะไม่มีความสัมพันธ์กันในประชากรโดยรวมก็ตาม

ตัวอย่างเช่น สมมติว่าเราสร้างแผนภาพกระจายสำหรับตัวแปร X และ Y สำหรับแต่ละจุดข้อมูลในประชากรทั้งหมด และมีลักษณะดังนี้:

ตัวอย่างของความสัมพันธ์เป็นศูนย์

เห็นได้ชัดว่าตัวแปรทั้งสองนี้ไม่มีความสัมพันธ์กัน อย่างไรก็ตาม เป็นไปได้ว่าเมื่อเราสุ่มตัวอย่างจำนวน 10 คะแนนจากประชากร เราจะเลือกจุดต่อไปนี้

ตัวอย่างความสัมพันธ์

เราจะเห็นว่าค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวอย่างคะแนนนี้คือ 0.93 ซึ่งบ่งชี้ว่ามีความสัมพันธ์เชิงบวกอย่างมาก แม้ว่าความสัมพันธ์ของประชากรจะเป็นศูนย์ก็ตาม

เพื่อทดสอบว่าความสัมพันธ์ระหว่างตัวแปรทั้งสองมีนัยสำคัญทางสถิติหรือไม่ เราสามารถค้นหาสถิติการทดสอบต่อไปนี้:

สถิติการทดสอบ T = r * √ (n-2) / (1-r 2 )

โดยที่ n คือจำนวนคู่ในกลุ่มตัวอย่างของเรา r คือสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน และสถิติการทดสอบ T เป็นไปตามการแจกแจงด้วยดีกรีอิสระ n-2

เรามาทบทวนตัวอย่างวิธีทดสอบความสำคัญของสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน

ตัวอย่าง

ชุดข้อมูลต่อไปนี้แสดงส่วนสูงและน้ำหนักของบุคคล 12 คน:

แผนภาพกระจายด้านล่างแสดงค่าของตัวแปรทั้งสองนี้:

แผนภูมิกระจายความสัมพันธ์

ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรทั้งสองนี้คือ r = 0.836

สถิติการทดสอบ T = 0.836 * √ (12 -2) / (1-0.836 2 ) = 4.804

จาก เครื่องคำนวณการแจกแจงแบบ t คะแนน 4.804 โดยมีดีกรีอิสระ 10 องศามีค่า p เท่ากับ 0.0007 ตั้งแต่ 0.0007 < 0.05 เราสามารถสรุปได้ว่าความสัมพันธ์ระหว่างน้ำหนักและส่วนสูงในตัวอย่างนี้มีนัยสำคัญทางสถิติที่ alpha = 0.05

ข้อควรระวัง

แม้ว่าค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจะมีประโยชน์ในการบอกเราว่าตัวแปรสองตัวมีการเชื่อมโยงเชิงเส้นหรือไม่ เราต้องคำนึงถึงสามสิ่งเมื่อตีความค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน:

1. ความสัมพันธ์ไม่ได้หมายความถึงสาเหตุ ไม่ใช่เพราะว่าตัวแปรสองตัวมีความสัมพันธ์กันที่ ทำให้ ตัวแปรหนึ่งปรากฏบ่อยขึ้นหรือน้อยลง ตัวอย่างคลาสสิกของเรื่องนี้คือความสัมพันธ์เชิงบวกระหว่างการขายไอศกรีมและการโจมตีของฉลาม เมื่อยอดขายไอศกรีมเพิ่มขึ้นในบางช่วงเวลาของปี การโจมตีของฉลามก็มีแนวโน้มเพิ่มขึ้นเช่นกัน

นี่หมายความว่าการกินไอศกรีม ทำให้เกิด การโจมตีของฉลามใช่หรือไม่? ไม่แน่นอน! ซึ่งหมายความว่าในช่วงฤดูร้อน การบริโภคน้ำแข็งและการโจมตีของฉลามมีแนวโน้มที่จะเพิ่มขึ้น เนื่องจากน้ำแข็งเป็นที่นิยมมากขึ้นในช่วงฤดูร้อน และผู้คนจำนวนมากลงสู่มหาสมุทรในช่วงฤดูร้อน

2. ความสัมพันธ์มีความอ่อนไหวต่อค่าผิดปกติ ค่าผิดปกติที่รุนแรงสามารถเปลี่ยนค่าสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันได้อย่างมาก ลองพิจารณาตัวอย่างด้านล่าง:

ตัวอย่างของค่าผิดปกติของสหสัมพันธ์

ตัวแปร X และ Y มีค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันเท่ากับ 0.00 แต่ลองจินตนาการว่าเรามีค่าผิดปกติในชุดข้อมูล:

ตัวอย่างสหสัมพันธ์เพียร์สัน

อย่างไรก็ตาม ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรทั้งสองนี้คือ 0.878 สิ่งนี้เปลี่ยนแปลงทุกสิ่ง ด้วยเหตุนี้ เมื่อคำนวณความสัมพันธ์ของตัวแปรสองตัว จึงควรแสดงภาพตัวแปรโดยใช้ Scatterplot เพื่อตรวจสอบค่าผิดปกติ

3. ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันไม่ได้จับความสัมพันธ์แบบไม่เชิงเส้นระหว่างตัวแปรสองตัว สมมติว่าเรามีตัวแปรสองตัวที่มีความสัมพันธ์ดังต่อไปนี้:

สหสัมพันธ์สำหรับความสัมพันธ์แบบไม่เชิงเส้น

ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันสำหรับตัวแปรทั้งสองนี้คือ 0.00 เนื่องจากไม่มีความสัมพันธ์เชิงเส้น อย่างไรก็ตาม ตัวแปรทั้งสองนี้มีความสัมพันธ์แบบไม่เชิงเส้น ค่า y เป็นเพียงค่า x กำลังสอง

เมื่อใช้สัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน โปรดจำไว้ว่าคุณกำลังทดสอบว่าตัวแปรสองตัวมีความสัมพันธ์ เชิงเส้นตรง หรือไม่ แม้ว่าค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันจะบอกเราว่าตัวแปรสองตัวนั้นไม่มีความสัมพันธ์กัน ตัวแปรเหล่านั้นก็ยังสามารถมีความสัมพันธ์แบบไม่เชิงเส้นบางประเภทได้ นี่เป็นอีกเหตุผลหนึ่งว่าทำไมการสร้างแผนภาพกระจายเมื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรสองตัวจึงมีประโยชน์ กล่าวคือ ช่วยให้คุณตรวจพบความสัมพันธ์แบบไม่เชิงเส้นได้

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *