การวิเคราะห์ตัวแปรเดียวหรือหลายตัวแปร: อะไรคือความแตกต่าง?


คำว่า การวิเคราะห์ตัวแปรเดียว หมายถึงการวิเคราะห์ตัวแปรหนึ่งตัว คุณสามารถจำสิ่งนี้ได้เพราะคำนำหน้า “uni” แปลว่า “หนึ่ง”

คำว่า การวิเคราะห์หลายตัวแปร หมายถึงการวิเคราะห์ตัวแปรมากกว่าหนึ่งตัวแปร คุณสามารถจำสิ่งนี้ได้เพราะคำนำหน้า “หลาย” หมายถึง “มากกว่าหนึ่ง”

มีสามวิธีทั่วไปในการดำเนิน การวิเคราะห์แบบตัวแปรเดียว :

1. สถิติสรุป

  • เราสามารถคำนวณ การวัดแนวโน้มศูนย์กลาง เช่น ค่าเฉลี่ยหรือค่ามัธยฐานของตัวแปรได้
  • นอกจากนี้เรายังสามารถคำนวณการวัดการกระจายตัว เช่น ค่าเบี่ยงเบนมาตรฐานของตัวแปรได้อีกด้วย

2. การแจกแจงความถี่

  • เราสามารถสร้าง การแจกแจงความถี่ ซึ่งอธิบายว่าแต่ละค่าปรากฏสำหรับตัวแปรบ่อยเพียงใด

3. กราฟิก

  • เราสามารถสร้างกราฟได้ เช่น Boxplots, Histograms, Density Plots เป็นต้น เพื่อให้เห็นภาพการกระจายค่าของตัวแปร

มีสองวิธีทั่วไปใน การวิเคราะห์หลายตัวแปร :

1. เมทริกซ์กระจาย

  • เราสามารถสร้างเมทริกซ์ Scatterplot ซึ่งช่วยให้เราเห็นภาพความสัมพันธ์ระหว่างการรวมตัวแปรแต่ละคู่ในชุดข้อมูล

2. อัลกอริธึมการเรียนรู้ของเครื่อง

  • เราสามารถใช้อัลกอริธึมการเรียนรู้แบบมีผู้สอนเพื่อให้เหมาะกับโมเดล เช่น การถดถอยเชิงเส้นพหุคูณ ซึ่งจะวัดความสัมพันธ์ระหว่างตัวแปรทำนายหลายตัวและตัวแปรตอบสนอง
  • นอกจากนี้เรายังสามารถใช้อัลกอริธึมการเรียนรู้แบบไม่มีผู้ดูแล เช่น การวิเคราะห์องค์ประกอบหลัก เพื่อค้นหาโครงสร้างและความสัมพันธ์ระหว่างตัวแปรหลายตัวในชุดข้อมูลไปพร้อมๆ กัน

ตัวอย่างต่อไปนี้แสดงวิธีดำเนินการวิเคราะห์แบบตัวแปรเดียวและหลายตัวแปรด้วยชุดข้อมูลต่อไปนี้:

หมายเหตุ : เมื่อคุณวิเคราะห์ตัวแปรสองตัวพอดี จะเรียกว่า การวิเคราะห์แบบไบวาเรียต

ตัวอย่าง: วิธีดำเนินการวิเคราะห์ตัวแปรเดียว

เราสามารถเลือกที่จะดำเนินการวิเคราะห์แบบตัวแปรเดียวกับตัวแปรแต่ละตัวในชุดข้อมูลได้

ตัวอย่างเช่น เราสามารถเลือกที่จะทำการวิเคราะห์แบบ univariate กับตัวแปร Household size :

ตัวอย่างการวิเคราะห์แบบไม่แปรผัน

เราสามารถคำนวณการวัดแนวโน้มส่วนกลางของขนาดครัวเรือนได้ดังต่อไปนี้:

  • เฉลี่ย(ค่าเฉลี่ย):3.8
  • มัธยฐาน (ค่าเฉลี่ย): 4

ค่านิยมเหล่านี้ทำให้เราทราบว่าค่า “ศูนย์กลาง” อยู่ที่ใด

นอกจากนี้เรายังสามารถคำนวณมาตรการการกระจายต่อไปนี้:

  • ช่วง (ความแตกต่างระหว่างสูงสุดและต่ำสุด): 6
  • สเกลระหว่างควอไทล์ (การกระจายค่าตรงกลาง 50%): 2.5
  • ส่วนเบี่ยงเบนมาตรฐาน (การวัดสเปรดโดยเฉลี่ย): 1.87

ค่าเหล่านี้ทำให้เรามีแนวคิดในการแจกแจงค่าของตัวแปรนี้

นอกจากนี้เรายังสามารถสร้างตารางการแจกแจงความถี่ต่อไปนี้เพื่อสรุปว่าค่าต่างๆ เกิดขึ้นบ่อยแค่ไหน:

นอกจากนี้เรายังสามารถสร้าง boxplot เพื่อให้เห็นภาพการกระจายของค่าตามขนาดครัวเรือน:

หรืออีกทางหนึ่ง เราสามารถสร้างฮิสโตแกรมเพื่อแสดงภาพการกระจายตัวของค่าได้:

ด้วยการคำนวณการวัดเหล่านี้และสร้างกราฟเหล่านี้ เราจะสามารถเข้าใจวิธีการกระจายค่าสำหรับตัวแปรขนาดครัวเรือนได้ดียิ่งขึ้น

ตัวอย่าง: วิธีการวิเคราะห์หลายตัวแปร

สมมติว่าเรามีชุดข้อมูลเดียวกัน:

รูปแบบง่ายๆ ของการวิเคราะห์หลายตัวแปรที่เราสามารถทำได้กับชุดข้อมูลนี้คือการสร้าง เมทริกซ์ Scatterplot ซึ่งเป็นเมทริกซ์ที่แสดง Scatterplot สำหรับการรวมตัวแปรตัวเลขในชุดข้อมูลแต่ละคู่ตามลำดับ

เราสามารถสร้างเมทริกซ์ประเภทนี้เพื่อให้เห็นภาพความสัมพันธ์ระหว่างขนาดครัวเรือน รายได้ต่อปี และจำนวนสัตว์เลี้ยงไปพร้อมๆ กัน

แหล่งข้อมูล : ลองดู บทช่วยสอนนี้ เพื่อดูวิธีสร้างเมทริกซ์ Scatterplot ใน R

อีกวิธีหนึ่งในการวิเคราะห์หลายตัวแปรในชุดข้อมูลนี้คือการปรับ โมเดลการถดถอยเชิงเส้นหลายตัว ให้เหมาะสม ตัวอย่างเช่น เราสามารถสร้างแบบจำลองการถดถอยที่ใช้ขนาดครัวเรือนและจำนวนสัตว์เลี้ยงในการทำนายรายได้ต่อปี

แหล่งข้อมูล : ลองดู บทช่วยสอนนี้ เพื่อดูวิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R

อีกวิธีหนึ่งในการวิเคราะห์หลายตัวแปรบนชุดข้อมูลนี้คือ การวิเคราะห์องค์ประกอบหลัก ซึ่งช่วยให้เราสามารถค้นหาโครงสร้างพื้นฐานในชุดข้อมูลได้

แหล่งข้อมูล : ลองอ่าน บทช่วยสอนนี้ เพื่อดูวิธีดำเนินการวิเคราะห์องค์ประกอบหลักใน R

บทสรุป

นี่เป็นบทสรุปโดยย่อของบทความนี้:

  • การวิเคราะห์ตัวแปรเดียวคือการวิเคราะห์ตัวแปรหนึ่งตัว
  • การวิเคราะห์หลายตัวแปรคือการวิเคราะห์ตัวแปรมากกว่าหนึ่งตัวแปร
  • มีหลายวิธีในการวิเคราะห์แต่ละประเภท ขึ้นอยู่กับเป้าหมายสุดท้ายของคุณ
  • ในโลกแห่งความเป็นจริง เรามักจะทำการวิเคราะห์ทั้งสองประเภทบนชุดข้อมูลเดียว
  • การวิเคราะห์ตัวแปรเดียวช่วยให้เราเข้าใจการกระจายของค่าสำหรับตัวแปรในขณะที่การวิเคราะห์หลายตัวแปรช่วยให้เราเข้าใจความสัมพันธ์ระหว่างตัวแปรหลายตัว

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *