การถดถอยผ่านจุดกำเนิด: คำจำกัดความและตัวอย่าง


การถดถอยเชิงเส้นอย่างง่ายเป็นวิธีการที่สามารถใช้ในการหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายหนึ่งตัวหรือมากกว่ากับ ตัวแปรตอบสนอง

แบบจำลองการถดถอยเชิงเส้นอย่างง่ายมีรูปแบบดังต่อไปนี้:

y = β 0 + β 1 x

ทอง:

  • y : ค่าของตัวแปรตอบสนอง
  • β 0 : ค่าของตัวแปรตอบสนองเมื่อ x = 0 (เรียกว่าคำว่า “ตัดขวาง”)
  • β 1 : การเพิ่มขึ้นโดยเฉลี่ยของตัวแปรตอบสนองที่เกี่ยวข้องกับการเพิ่มขึ้นของ x หนึ่งหน่วย
  • x : ค่าของตัวแปรทำนาย

เวอร์ชันที่แก้ไขของโมเดลนี้เรียกว่า การถดถอยผ่านจุดกำเนิด ซึ่งบังคับให้ y เท่ากับ 0 เมื่อ x เท่ากับ 0

โมเดลประเภทนี้มีรูปแบบดังต่อไปนี้:

y = β1x

โปรดทราบว่าคำสกัดกั้นได้ถูกลบออกจากแบบจำลองอย่างสมบูรณ์แล้ว

บางครั้งแบบจำลองนี้จะใช้เมื่อนักวิจัยรู้ว่าตัวแปรตอบสนองต้องเป็นศูนย์เมื่อตัวแปรทำนายเป็นศูนย์

ในโลกแห่งความเป็นจริง แบบจำลองประเภทนี้มักใช้ใน การศึกษาป่าไม้หรือนิเวศวิทยา

ตัวอย่างเช่น นักวิจัยสามารถใช้เส้นรอบวงของต้นไม้เพื่อทำนายความสูงของต้นไม้ได้ หากต้นไม้ต้นใดมีเส้นรอบวงเป็นศูนย์ ต้นไม้นั้นจะต้องมีความสูงเป็นศูนย์

ดังนั้น เมื่อปรับแบบจำลองการถดถอยให้เข้ากับข้อมูลนี้ จึงไม่สมเหตุสมผลที่คำเดิมจะเป็นค่าที่ไม่ใช่ศูนย์

ตัวอย่างต่อไปนี้แสดงความแตกต่างระหว่างการปรับแบบจำลองการถดถอยเชิงเส้นแบบธรรมดาให้เหมาะสมกับแบบจำลองที่ใช้การถดถอยผ่านจุดเริ่มต้น

ตัวอย่าง: การถดถอยผ่านจุดกำเนิด

สมมติว่านักชีววิทยาต้องการสร้างแบบจำลองการถดถอยโดยใช้เส้นรอบวงของต้นไม้เพื่อทำนายความสูงของต้นไม้ เธอออกไปและรวบรวมการวัดต่อไปนี้เพื่อเก็บตัวอย่างต้นไม้ 15 ต้น:

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อให้พอดีกับโมเดลการถดถอยเชิงเส้นอย่างง่ายกับโมเดลการถดถอยที่ไม่มีจุดตัดและพล็อตเส้นการถดถอยสองเส้น:

 #create data frame
df <- data. frame (circ=c(15, 19, 25, 39, 44, 46, 49, 54, 67, 79, 81, 84, 88, 90, 99),
                 height=c(200, 234, 285, 375, 440, 470, 564, 544, 639, 750, 830, 854,
                          901, 912, 989))

#fit a simple linear regression model
model <- lm(height ~ circ, data = df)

#fit regression through the origin
model_origin <- lm(height ~ 0 + ., data = df)

#create scatterplot
plot(df$circ, df$height, xlab=' Circumference ', ylab=' Height ',
     cex= 1.5 , pch= 16 , ylim=c(0.1000), xlim=c(0.100))

#add the fitted regression lines to the scatterplot
abline(model, col=' blue ', lwd= 2 )
abline(model_origin, lty=' dashed ', col=' red ', lwd= 2 )

การถดถอยจากจุดกำเนิด

เส้นประสีแดงแสดงถึงแบบจำลองการถดถอยที่ผ่านจุดกำเนิด และเส้นทึบสีน้ำเงินแสดงถึงแบบจำลองการถดถอยเชิงเส้นแบบธรรมดา

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อรับการประมาณค่าสัมประสิทธิ์สำหรับแต่ละรุ่น:

 #display coefficients for simple linear regression model
coef(model)

(Intercept) circ 
  40.696971 9.529631 

#display coefficients for regression model through the origin
coef(model_origin)

    circ 
10.10574 

สมการที่พอดีสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายคือ:

ความสูง = 40.6969 + 9.5296 (เส้นรอบวง)

และสมการที่พอดีสำหรับแบบจำลองการถดถอยผ่านจุดกำเนิดคือ:

ส่วนสูง = 10.1057 (เส้นรอบวง)

โปรดทราบว่าการประมาณค่าสัมประสิทธิ์สำหรับตัวแปรเส้นรอบวงจะแตกต่างกันเล็กน้อย

ข้อควรระวังในการใช้การถดถอยผ่านจุดเริ่มต้น

ก่อนที่จะใช้การถดถอยแบบสกัดกั้น คุณต้องแน่ใจอย่างแน่นอนว่าค่า 0 สำหรับตัวแปรทำนายหมายถึงค่า 0 สำหรับตัวแปรการตอบสนอง ในหลาย ๆ สถานการณ์ แทบจะเป็นไปไม่ได้เลยที่จะทราบแน่ชัด

และหากคุณใช้การถดถอยผ่านจุดกำเนิดเพื่อรักษาระดับความอิสระในการประมาณค่าจุดกำเนิด ก็แทบจะไม่สร้างความแตกต่างอย่างมีนัยสำคัญหากขนาดตัวอย่างของคุณใหญ่พอ

หากคุณเลือกที่จะใช้การถดถอยผ่านจุดเริ่มต้น อย่าลืมสรุปเหตุผลของคุณในการวิเคราะห์หรือรายงานขั้นสุดท้าย

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการถดถอยเชิงเส้น:

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
วิธีอ่านและตีความตารางการถดถอย

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *