วิธีการคำนวณความสัมพันธ์ระหว่างตัวแปรเชิงหมวดหมู่


เรามักใช้ ค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สัน เพื่อคำนวณความสัมพันธ์ระหว่างตัวแปรตัวเลขต่อเนื่อง

อย่างไรก็ตาม เราจำเป็นต้องใช้หน่วยวัดอื่นในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่ ซึ่งก็คือตัวแปรที่ใช้ชื่อหรือป้ายกำกับ เช่น:

  • สถานภาพการสมรส (โสด, แต่งงานแล้ว, หย่าร้าง)
  • สถานะการสูบบุหรี่ (สูบบุหรี่ ไม่สูบบุหรี่)
  • สีตา (น้ำเงิน, น้ำตาล, เขียว)

มีสามมาตรการที่ใช้กันทั่วไปในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่:

1. ความสัมพันธ์แบบเตตราคอริก: ใช้ในการคำนวณความสัมพันธ์ระหว่างตัวแปรเด็ดขาดแบบไบนารี

2. Polychoric correlation: ใช้ในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่ลำดับ

3. Cramer’s V: ใช้ในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่ที่ระบุ

ส่วนต่อไปนี้เป็นตัวอย่างของวิธีคำนวณการวัดแต่ละค่าจากทั้งสามค่านี้

ตัวชี้วัด 1: ความสัมพันธ์แบบเตตราโคริก

ความสัมพันธ์แบบเตตราคอริก ใช้ในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่ไบนารี โปรดจำไว้ว่าตัวแปรไบนารี่เป็นตัวแปรที่สามารถรับค่าที่เป็นไปได้เพียงค่าเดียวจากสองค่าเท่านั้น

ค่าสหสัมพันธ์แบบเตตราคอริกอยู่ในช่วงตั้งแต่ -1 ถึง 1 โดยที่ -1 บ่งชี้ว่ามีความสัมพันธ์เชิงลบที่รุนแรง 0 บ่งชี้ว่าไม่มีความสัมพันธ์กัน และ 1 บ่งชี้ว่ามีความสัมพันธ์เชิงบวกอย่างมาก

ตัวอย่างเช่น สมมติว่าเราต้องการทราบว่าเพศสัมพันธ์กับการเลือกพรรคการเมืองหรือไม่ ดังนั้นเราจึงสุ่มตัวอย่างผู้มีสิทธิเลือกตั้ง 100 คน และถามพวกเขาเกี่ยวกับความชอบในพรรคการเมืองของพวกเขา

ตารางต่อไปนี้แสดงผลการสำรวจ:

ความสัมพันธ์แบบเตตราคอริก

เราจะใช้ความสัมพันธ์แบบเตตราโคริกในสถานการณ์นี้ เนื่องจากตัวแปรหมวดหมู่แต่ละตัวเป็นแบบไบนารี กล่าวคือ ตัวแปรแต่ละตัวสามารถรับค่าที่เป็นไปได้ได้เพียงสองค่าเท่านั้น

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อคำนวณความสัมพันธ์แบบเตตราคอริกระหว่างตัวแปรทั้งสอง:

 library (psych)

#create 2x2 table
data = matrix(c(19, 12, 30, 39), nrow= 2 )

#view table
data

#calculate tetrachoric correlation
tetrachoric(data)

tetrachoric correlation 
[1] 0.27

ความสัมพันธ์แบบเตตราคอริกกลายเป็น 0.27 . ค่านี้ค่อนข้างต่ำ แสดงว่ามีความสัมพันธ์ที่อ่อนแอ (ถ้ามี) ระหว่างเพศกับความชอบของพรรคการเมือง

ตัวชี้วัด 2: ความสัมพันธ์แบบหลายคอริก

ความสัมพันธ์แบบโพลีคอริก ใช้ในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่ลำดับ โปรดจำไว้ว่าตัวแปรลำดับคือตัวแปรที่มีค่าที่เป็นไปได้มีลำดับตามธรรมชาติ

ค่าสหสัมพันธ์แบบโพลีคอริกอยู่ในช่วงตั้งแต่ -1 ถึง 1 โดยที่ -1 บ่งชี้ว่ามีความสัมพันธ์เชิงลบที่รุนแรง 0 บ่งชี้ว่าไม่มีความสัมพันธ์กัน และ 1 บ่งชี้ว่ามีความสัมพันธ์เชิงบวกอย่างมาก

ตัวอย่างเช่น สมมติว่าคุณต้องการทราบว่าหน่วยงานจัดเรตภาพยนตร์สองแห่งมีความสัมพันธ์กันสูงระหว่างการจัดเรตภาพยนตร์ของตนหรือไม่

เราขอให้หน่วยงานแต่ละแห่งให้คะแนนภาพยนตร์ 20 เรื่องในระดับ 1 ถึง 3 โดย 1 เรื่องระบุว่า “แย่” 2 เรื่องระบุว่า “แย่” และ 3 เรื่องระบุว่า “ดี”

ตารางต่อไปนี้แสดงผลลัพธ์:

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อคำนวณความสัมพันธ์แบบโพลีคอริกระหว่างการจัดอันดับของทั้งสองเอเจนซี่:

 library (polycor)

#define movie ratings
x <- c(1, 1, 2, 2, 3, 2, 2, 3, 2, 3, 3, 2, 1, 2, 2, 1, 1, 1, 2, 2)
y <- c(1, 1, 2, 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 2, 2, 1, 2, 1, 3, 3)

#calculate polychoric correlation between ratings
polychor(x, y)

[1] 0.7828328

ความสัมพันธ์แบบโพลีคอริกกลายเป็น 0.78 . ค่านี้ค่อนข้างสูง ซึ่งบ่งชี้ว่าอันดับเครดิตของแต่ละเอเจนซี่มีความสัมพันธ์เชิงบวกอย่างมาก

เมตริก 3: V. ของ Cramer

V ของ Cramer ใช้ในการคำนวณความสัมพันธ์ระหว่างตัวแปรหมวดหมู่ที่ระบุ โปรดจำไว้ว่าตัวแปรที่ระบุคือตัวแปรที่มีป้ายกำกับหมวดหมู่ แต่ไม่มีลำดับตามธรรมชาติ

ค่าของ V ของ Cramer อยู่ระหว่าง 0 ถึง 1 โดย 0 หมายถึงไม่มีการเชื่อมโยงระหว่างตัวแปร และ 1 หมายถึงความสัมพันธ์ที่แน่นแฟ้นระหว่างตัวแปร

ตัวอย่างเช่น สมมติว่าเราต้องการทราบว่าสีตาและเพศมีความสัมพันธ์กันหรือไม่ ดังนั้นเราจึงซักถามคน 50 คนและได้ผลลัพธ์ดังต่อไปนี้:

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อคำนวณ V ของ Cramer สำหรับตัวแปรทั้งสองนี้:

 library (rcompanion)

#create table
data = matrix(c(6, 9, 8, 5, 12, 10), nrow= 2 )

#view table
data

     [,1] [,2] [,3]
[1,] 6 8 12
[2,] 9 5 10

#calculate Cramer's V
cramerV(data)

Cramer V 
  0.1671

V ของแครเมอร์กลายเป็น 0.1671 ค่านี้ค่อนข้างต่ำ บ่งชี้ว่ามีความสัมพันธ์ที่อ่อนแอระหว่างเพศและสีตา

แหล่งข้อมูลเพิ่มเติม

ความรู้เบื้องต้นเกี่ยวกับสัมประสิทธิ์สหสัมพันธ์เพียร์สัน
ความรู้เบื้องต้นเกี่ยวกับความสัมพันธ์แบบเตตราโคริก
ตัวแปรหมวดหมู่หรือเชิงปริมาณ: อะไรคือความแตกต่าง?
ระดับการวัด: ระบุ ลำดับ ช่วงเวลา และอัตราส่วน

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *