วิธีการตีความเอาต์พุตการถดถอยใน r
เพื่อให้พอดีกับ โมเดลการถดถอยเชิงเส้น ใน R เราสามารถใช้คำสั่ง lm()
ในการแสดงผลลัพธ์ของโมเดลการถดถอย เราสามารถใช้คำสั่ง summary() ได้
บทช่วยสอนนี้จะอธิบายวิธีการตีความแต่ละค่าของเอาต์พุตการถดถอยใน R
ตัวอย่าง: การตีความเอาต์พุตการถดถอยใน R
รหัสต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยเชิงเส้นหลายตัวให้พอดีด้วยชุดข้อมูล mtcars ที่ผสานรวมโดยใช้ hp , drat และ wt เป็นตัวแปรทำนาย และ mpg เป็นตัวแปรตอบสนอง:
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
ต่อไปนี้เป็นวิธีการตีความแต่ละค่าในเอาต์พุต:
เรียก
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
ส่วนนี้จะเตือนเราถึงสูตรที่เราใช้ในตัวแบบการถดถอยของเรา เราจะเห็นได้ว่าเราใช้ mpg เป็นตัวแปรตอบสนองและ hp , drat และ wt เป็นตัวแปรทำนาย ตัวแปรแต่ละตัวมาจากชุดข้อมูลที่เรียกว่า mtcars
สารตกค้าง
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
ส่วนนี้จะแสดงสรุปการกระจายตัวของส่วนที่เหลือจากแบบจำลองการถดถอย โปรดจำไว้ว่าส่วนที่เหลือคือความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่คาดการณ์ไว้ของแบบจำลองการถดถอย
ปริมาณตกค้างขั้นต่ำคือ -3.3598 ค่ามัธยฐานของปริมาณตกค้างคือ -0.5099 และปริมาณตกค้างสูงสุดคือ 5.7078
ค่าสัมประสิทธิ์
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ส่วนนี้จะแสดงค่าสัมประสิทธิ์โดยประมาณของแบบจำลองการถดถอย เราสามารถใช้สัมประสิทธิ์เหล่านี้เพื่อสร้างสมการการถดถอยโดยประมาณต่อไปนี้:
MPG = 29.39 – 0.03*แรงม้า + 1.62*เดรท – 3.23*น้ำหนัก
สำหรับตัวแปรทำนายแต่ละตัว เราได้รับค่าต่อไปนี้:
การประมาณค่า: ค่าสัมประสิทธิ์โดยประมาณ สิ่งนี้บอกเราถึงการเพิ่มขึ้นโดยเฉลี่ยของตัวแปรตอบสนองที่เกี่ยวข้องกับการเพิ่มขึ้นของตัวแปรทำนายหนึ่งหน่วย โดยสมมติว่าตัวแปรตัวทำนายอื่นๆ ทั้งหมดคงที่
มาตรฐาน. ข้อผิดพลาด : นี่เป็นข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์ นี่คือการวัดความไม่แน่นอนของการประมาณค่าสัมประสิทธิ์ของเรา
t-value: นี่คือสถิติ t สำหรับตัวแปรทำนาย ซึ่งคำนวณเป็น (ประมาณการ) / (ข้อผิดพลาดมาตรฐาน)
Pr(>|t|): นี่คือค่า p ที่สอดคล้องกับสถิติ t หากค่านี้ต่ำกว่าระดับอัลฟาที่กำหนด (เช่น 0.05) ตัวแปรทำนายจะมีนัยสำคัญทางสถิติ
หากเราใช้ระดับอัลฟาที่ α = 0.05 เพื่อพิจารณาว่าตัวทำนายตัวใดมีนัยสำคัญในแบบจำลองการถดถอยนี้ เราจะบอกว่า hp และ wt เป็นตัวทำนายที่มีนัยสำคัญทางสถิติ ในขณะที่ drat ไม่ใช่
การประเมินความเพียงพอของแบบจำลอง
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
ส่วนสุดท้ายนี้จะแสดงตัวเลขต่างๆ ที่ช่วยให้เราประเมินว่าแบบจำลองการถดถอยเหมาะสมกับชุดข้อมูลของเราได้ดีเพียงใด
ข้อผิดพลาดมาตรฐานที่เหลือ: สิ่งนี้บอกเราถึงระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้และเส้นการถดถอย ยิ่งค่าน้อยลง โมเดลการถดถอยก็จะพอดีกับข้อมูลได้ดีขึ้นเท่านั้น
องศาความเป็นอิสระคำนวณเป็น nk-1 โดยที่ n = จำนวนการสังเกตทั้งหมด และ k = จำนวนตัวทำนาย ในตัวอย่างนี้ mtcars มีการสังเกต 32 ครั้ง และเราใช้ตัวทำนาย 3 ตัวในแบบจำลองการถดถอย ดังนั้นระดับความอิสระคือ 32 – 3 – 1 = 28
R-squared หลายตัว: สิ่งนี้เรียกว่าสัมประสิทธิ์การกำหนด มันบอกเราว่าตัวแปรทำนายสามารถอธิบายความแปรปรวนใน ตัวแปรตอบสนอง ได้มากเพียงใด
ค่านี้มีตั้งแต่ 0 ถึง 1 ยิ่งใกล้กับ 1 มากเท่าใด ตัวแปรทำนายก็ยิ่งสามารถทำนายค่าของตัวแปรตอบสนองได้มากขึ้นเท่านั้น
ปรับ R-squared: นี่เป็นเวอร์ชันแก้ไขของ R-squared ที่ได้รับการปรับเปลี่ยนตามจำนวนตัวทำนายในแบบจำลอง มันจะน้อยกว่า R กำลังสองเสมอ
ค่า R-squared ที่ปรับแล้วมีประโยชน์ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยต่างๆ ที่ใช้ตัวแปรตัวทำนายจำนวนต่างกัน
สถิติ F: ระบุว่าแบบจำลองการถดถอยมีความเหมาะสมกับข้อมูลมากกว่าแบบจำลองที่ไม่มีตัวแปรอิสระหรือไม่ โดยพื้นฐานแล้ว จะทดสอบว่าแบบจำลองการถดถอยโดยรวมมีประโยชน์หรือไม่
p-value: นี่คือค่า p ที่สอดคล้องกับสถิติ F หากค่านี้ต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) แบบจำลองการถดถอยจะเหมาะกับข้อมูลได้ดีกว่าแบบจำลองที่ไม่มีตัวทำนาย
เมื่อสร้างแบบจำลองการถดถอย เราหวังว่าค่า p นี้ต่ำกว่าระดับนัยสำคัญที่กำหนด เพราะมันบ่งชี้ว่าตัวแปรทำนายมีประโยชน์จริง ๆ ในการทำนายค่าของตัวแปรตอบสนอง
แหล่งข้อมูลเพิ่มเติม
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน R
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
ค่า R-กำลังสองที่ดีคืออะไร?