การวิเคราะห์ตัวแปรเดียวหรือหลายตัวแปร: อะไรคือความแตกต่าง?
คำว่า การวิเคราะห์ตัวแปรเดียว หมายถึงการวิเคราะห์ตัวแปรหนึ่งตัว คุณสามารถจำสิ่งนี้ได้เพราะคำนำหน้า “uni” แปลว่า “หนึ่ง”
คำว่า การวิเคราะห์หลายตัวแปร หมายถึงการวิเคราะห์ตัวแปรมากกว่าหนึ่งตัวแปร คุณสามารถจำสิ่งนี้ได้เพราะคำนำหน้า “หลาย” หมายถึง “มากกว่าหนึ่ง”
มีสามวิธีทั่วไปในการดำเนิน การวิเคราะห์แบบตัวแปรเดียว :
1. สถิติสรุป
- เราสามารถคำนวณ การวัดแนวโน้มศูนย์กลาง เช่น ค่าเฉลี่ยหรือค่ามัธยฐานของตัวแปรได้
- นอกจากนี้เรายังสามารถคำนวณการวัดการกระจายตัว เช่น ค่าเบี่ยงเบนมาตรฐานของตัวแปรได้อีกด้วย
2. การแจกแจงความถี่
- เราสามารถสร้าง การแจกแจงความถี่ ซึ่งอธิบายว่าแต่ละค่าปรากฏสำหรับตัวแปรบ่อยเพียงใด
3. กราฟิก
- เราสามารถสร้างกราฟได้ เช่น Boxplots, Histograms, Density Plots เป็นต้น เพื่อให้เห็นภาพการกระจายค่าของตัวแปร
มีสองวิธีทั่วไปใน การวิเคราะห์หลายตัวแปร :
1. เมทริกซ์กระจาย
- เราสามารถสร้างเมทริกซ์ Scatterplot ซึ่งช่วยให้เราเห็นภาพความสัมพันธ์ระหว่างการรวมตัวแปรแต่ละคู่ในชุดข้อมูล
2. อัลกอริธึมการเรียนรู้ของเครื่อง
- เราสามารถใช้อัลกอริธึมการเรียนรู้แบบมีผู้สอนเพื่อให้เหมาะกับโมเดล เช่น การถดถอยเชิงเส้นพหุคูณ ซึ่งจะวัดความสัมพันธ์ระหว่างตัวแปรทำนายหลายตัวและตัวแปรตอบสนอง
- นอกจากนี้เรายังสามารถใช้อัลกอริธึมการเรียนรู้แบบไม่มีผู้ดูแล เช่น การวิเคราะห์องค์ประกอบหลัก เพื่อค้นหาโครงสร้างและความสัมพันธ์ระหว่างตัวแปรหลายตัวในชุดข้อมูลไปพร้อมๆ กัน
ตัวอย่างต่อไปนี้แสดงวิธีดำเนินการวิเคราะห์แบบตัวแปรเดียวและหลายตัวแปรด้วยชุดข้อมูลต่อไปนี้:

หมายเหตุ : เมื่อคุณวิเคราะห์ตัวแปรสองตัวพอดี จะเรียกว่า การวิเคราะห์แบบไบวาเรียต
ตัวอย่าง: วิธีดำเนินการวิเคราะห์ตัวแปรเดียว
เราสามารถเลือกที่จะดำเนินการวิเคราะห์แบบตัวแปรเดียวกับตัวแปรแต่ละตัวในชุดข้อมูลได้
ตัวอย่างเช่น เราสามารถเลือกที่จะทำการวิเคราะห์แบบ univariate กับตัวแปร Household size :

เราสามารถคำนวณการวัดแนวโน้มส่วนกลางของขนาดครัวเรือนได้ดังต่อไปนี้:
- เฉลี่ย(ค่าเฉลี่ย):3.8
- มัธยฐาน (ค่าเฉลี่ย): 4
ค่านิยมเหล่านี้ทำให้เราทราบว่าค่า “ศูนย์กลาง” อยู่ที่ใด
นอกจากนี้เรายังสามารถคำนวณมาตรการการกระจายต่อไปนี้:
- ช่วง (ความแตกต่างระหว่างสูงสุดและต่ำสุด): 6
- สเกลระหว่างควอไทล์ (การกระจายค่าตรงกลาง 50%): 2.5
- ส่วนเบี่ยงเบนมาตรฐาน (การวัดสเปรดโดยเฉลี่ย): 1.87
ค่าเหล่านี้ทำให้เรามีแนวคิดในการแจกแจงค่าของตัวแปรนี้
นอกจากนี้เรายังสามารถสร้างตารางการแจกแจงความถี่ต่อไปนี้เพื่อสรุปว่าค่าต่างๆ เกิดขึ้นบ่อยแค่ไหน:

นอกจากนี้เรายังสามารถสร้าง boxplot เพื่อให้เห็นภาพการกระจายของค่าตามขนาดครัวเรือน:

หรืออีกทางหนึ่ง เราสามารถสร้างฮิสโตแกรมเพื่อแสดงภาพการกระจายตัวของค่าได้:

ด้วยการคำนวณการวัดเหล่านี้และสร้างกราฟเหล่านี้ เราจะสามารถเข้าใจวิธีการกระจายค่าสำหรับตัวแปรขนาดครัวเรือนได้ดียิ่งขึ้น
ตัวอย่าง: วิธีการวิเคราะห์หลายตัวแปร
สมมติว่าเรามีชุดข้อมูลเดียวกัน:

รูปแบบง่ายๆ ของการวิเคราะห์หลายตัวแปรที่เราสามารถทำได้กับชุดข้อมูลนี้คือการสร้าง เมทริกซ์ Scatterplot ซึ่งเป็นเมทริกซ์ที่แสดง Scatterplot สำหรับการรวมตัวแปรตัวเลขในชุดข้อมูลแต่ละคู่ตามลำดับ
เราสามารถสร้างเมทริกซ์ประเภทนี้เพื่อให้เห็นภาพความสัมพันธ์ระหว่างขนาดครัวเรือน รายได้ต่อปี และจำนวนสัตว์เลี้ยงไปพร้อมๆ กัน
แหล่งข้อมูล : ลองดู บทช่วยสอนนี้ เพื่อดูวิธีสร้างเมทริกซ์ Scatterplot ใน R
อีกวิธีหนึ่งในการวิเคราะห์หลายตัวแปรในชุดข้อมูลนี้คือการปรับ โมเดลการถดถอยเชิงเส้นหลายตัว ให้เหมาะสม ตัวอย่างเช่น เราสามารถสร้างแบบจำลองการถดถอยที่ใช้ขนาดครัวเรือนและจำนวนสัตว์เลี้ยงในการทำนายรายได้ต่อปี
แหล่งข้อมูล : ลองดู บทช่วยสอนนี้ เพื่อดูวิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
อีกวิธีหนึ่งในการวิเคราะห์หลายตัวแปรบนชุดข้อมูลนี้คือ การวิเคราะห์องค์ประกอบหลัก ซึ่งช่วยให้เราสามารถค้นหาโครงสร้างพื้นฐานในชุดข้อมูลได้
แหล่งข้อมูล : ลองอ่าน บทช่วยสอนนี้ เพื่อดูวิธีดำเนินการวิเคราะห์องค์ประกอบหลักใน R
บทสรุป
นี่เป็นบทสรุปโดยย่อของบทความนี้:
- การวิเคราะห์ตัวแปรเดียวคือการวิเคราะห์ตัวแปรหนึ่งตัว
- การวิเคราะห์หลายตัวแปรคือการวิเคราะห์ตัวแปรมากกว่าหนึ่งตัวแปร
- มีหลายวิธีในการวิเคราะห์แต่ละประเภท ขึ้นอยู่กับเป้าหมายสุดท้ายของคุณ
- ในโลกแห่งความเป็นจริง เรามักจะทำการวิเคราะห์ทั้งสองประเภทบนชุดข้อมูลเดียว
- การวิเคราะห์ตัวแปรเดียวช่วยให้เราเข้าใจการกระจายของค่าสำหรับตัวแปรในขณะที่การวิเคราะห์หลายตัวแปรช่วยให้เราเข้าใจความสัมพันธ์ระหว่างตัวแปรหลายตัว