วิธีการตีความเอาต์พุตการถดถอยใน r


เพื่อให้พอดีกับ โมเดลการถดถอยเชิงเส้น ใน R เราสามารถใช้คำสั่ง lm()

ในการแสดงผลลัพธ์ของโมเดลการถดถอย เราสามารถใช้คำสั่ง summary() ได้

บทช่วยสอนนี้จะอธิบายวิธีการตีความแต่ละค่าของเอาต์พุตการถดถอยใน R

ตัวอย่าง: การตีความเอาต์พุตการถดถอยใน R

รหัสต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยเชิงเส้นหลายตัวให้พอดีด้วยชุดข้อมูล mtcars ที่ผสานรวมโดยใช้ hp , drat และ wt เป็นตัวแปรทำนาย และ mpg เป็นตัวแปรตอบสนอง:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

ต่อไปนี้เป็นวิธีการตีความแต่ละค่าในเอาต์พุต:

เรียก

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

ส่วนนี้จะเตือนเราถึงสูตรที่เราใช้ในตัวแบบการถดถอยของเรา เราจะเห็นได้ว่าเราใช้ mpg เป็นตัวแปรตอบสนองและ hp , drat และ wt เป็นตัวแปรทำนาย ตัวแปรแต่ละตัวมาจากชุดข้อมูลที่เรียกว่า mtcars

สารตกค้าง

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

ส่วนนี้จะแสดงสรุปการกระจายตัวของส่วนที่เหลือจากแบบจำลองการถดถอย โปรดจำไว้ว่าส่วนที่เหลือคือความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่คาดการณ์ไว้ของแบบจำลองการถดถอย

ปริมาณตกค้างขั้นต่ำคือ -3.3598 ค่ามัธยฐานของปริมาณตกค้างคือ -0.5099 และปริมาณตกค้างสูงสุดคือ 5.7078

ค่าสัมประสิทธิ์

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ส่วนนี้จะแสดงค่าสัมประสิทธิ์โดยประมาณของแบบจำลองการถดถอย เราสามารถใช้สัมประสิทธิ์เหล่านี้เพื่อสร้างสมการการถดถอยโดยประมาณต่อไปนี้:

MPG = 29.39 – 0.03*แรงม้า + 1.62*เดรท – 3.23*น้ำหนัก

สำหรับตัวแปรทำนายแต่ละตัว เราได้รับค่าต่อไปนี้:

การประมาณค่า: ค่าสัมประสิทธิ์โดยประมาณ สิ่งนี้บอกเราถึงการเพิ่มขึ้นโดยเฉลี่ยของตัวแปรตอบสนองที่เกี่ยวข้องกับการเพิ่มขึ้นของตัวแปรทำนายหนึ่งหน่วย โดยสมมติว่าตัวแปรตัวทำนายอื่นๆ ทั้งหมดคงที่

มาตรฐาน. ข้อผิดพลาด : นี่เป็นข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์ นี่คือการวัดความไม่แน่นอนของการประมาณค่าสัมประสิทธิ์ของเรา

t-value: นี่คือสถิติ t สำหรับตัวแปรทำนาย ซึ่งคำนวณเป็น (ประมาณการ) / (ข้อผิดพลาดมาตรฐาน)

Pr(>|t|): นี่คือค่า p ที่สอดคล้องกับสถิติ t หากค่านี้ต่ำกว่าระดับอัลฟาที่กำหนด (เช่น 0.05) ตัวแปรทำนายจะมีนัยสำคัญทางสถิติ

หากเราใช้ระดับอัลฟาที่ α = 0.05 เพื่อพิจารณาว่าตัวทำนายตัวใดมีนัยสำคัญในแบบจำลองการถดถอยนี้ เราจะบอกว่า hp และ wt เป็นตัวทำนายที่มีนัยสำคัญทางสถิติ ในขณะที่ drat ไม่ใช่

การประเมินความเพียงพอของแบบจำลอง

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

ส่วนสุดท้ายนี้จะแสดงตัวเลขต่างๆ ที่ช่วยให้เราประเมินว่าแบบจำลองการถดถอยเหมาะสมกับชุดข้อมูลของเราได้ดีเพียงใด

ข้อผิดพลาดมาตรฐานที่เหลือ: สิ่งนี้บอกเราถึงระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้และเส้นการถดถอย ยิ่งค่าน้อยลง โมเดลการถดถอยก็จะพอดีกับข้อมูลได้ดีขึ้นเท่านั้น

องศาความเป็นอิสระคำนวณเป็น nk-1 โดยที่ n = จำนวนการสังเกตทั้งหมด และ k = จำนวนตัวทำนาย ในตัวอย่างนี้ mtcars มีการสังเกต 32 ครั้ง และเราใช้ตัวทำนาย 3 ตัวในแบบจำลองการถดถอย ดังนั้นระดับความอิสระคือ 32 – 3 – 1 = 28

R-squared หลายตัว: สิ่งนี้เรียกว่าสัมประสิทธิ์การกำหนด มันบอกเราว่าตัวแปรทำนายสามารถอธิบายความแปรปรวนใน ตัวแปรตอบสนอง ได้มากเพียงใด

ค่านี้มีตั้งแต่ 0 ถึง 1 ยิ่งใกล้กับ 1 มากเท่าใด ตัวแปรทำนายก็ยิ่งสามารถทำนายค่าของตัวแปรตอบสนองได้มากขึ้นเท่านั้น

ปรับ R-squared: นี่เป็นเวอร์ชันแก้ไขของ R-squared ที่ได้รับการปรับเปลี่ยนตามจำนวนตัวทำนายในแบบจำลอง มันจะน้อยกว่า R กำลังสองเสมอ

ค่า R-squared ที่ปรับแล้วมีประโยชน์ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยต่างๆ ที่ใช้ตัวแปรตัวทำนายจำนวนต่างกัน

สถิติ F: ระบุว่าแบบจำลองการถดถอยมีความเหมาะสมกับข้อมูลมากกว่าแบบจำลองที่ไม่มีตัวแปรอิสระหรือไม่ โดยพื้นฐานแล้ว จะทดสอบว่าแบบจำลองการถดถอยโดยรวมมีประโยชน์หรือไม่

p-value: นี่คือค่า p ที่สอดคล้องกับสถิติ F หากค่านี้ต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) แบบจำลองการถดถอยจะเหมาะกับข้อมูลได้ดีกว่าแบบจำลองที่ไม่มีตัวทำนาย

เมื่อสร้างแบบจำลองการถดถอย เราหวังว่าค่า p นี้ต่ำกว่าระดับนัยสำคัญที่กำหนด เพราะมันบ่งชี้ว่าตัวแปรทำนายมีประโยชน์จริง ๆ ในการทำนายค่าของตัวแปรตอบสนอง

แหล่งข้อมูลเพิ่มเติม

วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน R
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
ค่า R-กำลังสองที่ดีคืออะไร?

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *