วิธีการคำนวณข้อผิดพลาดมาตรฐานคงเหลือใน r


เมื่อใดก็ตามที่เราใส่โมเดลการถดถอยเชิงเส้นใน R โมเดลจะใช้รูปแบบต่อไปนี้:

Y = β 0 + β 1 X + … + β i

โดยที่ ϵ เป็นคำที่ผิดพลาดโดยไม่ขึ้นกับ X

ไม่ว่า X จะสามารถทำนายค่า Y ได้อย่างไร ก็จะมีข้อผิดพลาดแบบสุ่มในโมเดลเสมอ วิธีหนึ่งในการวัดการกระจายตัวของข้อผิดพลาดแบบสุ่มนี้คือการใช้ ข้อผิดพลาดมาตรฐานตกค้าง ซึ่งเป็นวิธีการวัดค่าเบี่ยงเบนมาตรฐานของค่าเบี่ยงเบนมาตรฐาน ϵ

ข้อผิดพลาดมาตรฐานคงเหลือของแบบจำลองการถดถอยมีการคำนวณดังนี้:

ข้อผิดพลาดมาตรฐานคงเหลือ = √ SS คงเหลือ / df คงเหลือ

ทอง:

  • Residuals SS : ผลรวมที่เหลือของกำลังสอง
  • คงเหลือ df : องศาอิสระที่เหลือ คำนวณเป็น n – k – 1 โดยที่ n = จำนวนการสังเกตทั้งหมด และ k = จำนวนพารามิเตอร์แบบจำลองทั้งหมด

มีสามวิธีที่เราสามารถใช้เพื่อคำนวณความคลาดเคลื่อนมาตรฐานที่เหลือของแบบจำลองการถดถอยใน R

วิธีที่ 1: วิเคราะห์สรุปแบบจำลอง

วิธีแรกในการรับข้อผิดพลาดมาตรฐานที่เหลือคือเพียงปรับโมเดลการถดถอยเชิงเส้นให้พอดี จากนั้นใช้คำสั่ง summary() เพื่อรับผลลัพธ์ของโมเดล จากนั้นเพียงมองหา “ข้อผิดพลาดมาตรฐานที่เหลือ” ที่ด้านล่างของเอาต์พุต:

 #load built-in mtcars dataset
data(mtcars)

#fit regression model
model <- lm(mpg~disp+hp, data=mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ disp + hp, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-4.7945 -2.3036 -0.8246 1.8582 6.9363 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.735904 1.331566 23.083 < 2nd-16 ***
available -0.030346 0.007405 -4.098 0.000306 ***
hp -0.024840 0.013385 -1.856 0.073679 .  
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.127 on 29 degrees of freedom
Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309 
F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09

เราจะเห็นว่าข้อผิดพลาดมาตรฐานคงเหลือคือ 3.127 .

วิธีที่ 2: ใช้สูตรอย่างง่าย

อีกวิธีหนึ่งในการรับข้อผิดพลาดมาตรฐานที่เหลือ (RSE) คือการปรับแบบจำลองการถดถอยเชิงเส้นให้เหมาะสม จากนั้นใช้สูตรต่อไปนี้เพื่อคำนวณ RSE:

 sqrt( deviance (model)/df. residual (model))

ต่อไปนี้คือวิธีการใช้สูตรนี้ใน R:

 #load built-in mtcars dataset
data(mtcars)

#fit regression model
model <- lm(mpg~disp+hp, data=mtcars)

#calculate residual standard error
sqrt( deviance (model)/df. residual (model))

[1] 3.126601

เราจะเห็นว่าข้อผิดพลาดมาตรฐานคงเหลือคือ 3.126601

วิธีที่ 3: ใช้สูตรทีละขั้นตอน

อีกวิธีหนึ่งในการรับข้อผิดพลาดมาตรฐานที่เหลือคือปรับโมเดลการถดถอยเชิงเส้นให้เหมาะสม จากนั้นใช้วิธีการทีละขั้นตอนเพื่อคำนวณแต่ละองค์ประกอบของสูตร RSE:

 #load built-in mtcars dataset
data(mtcars)

#fit regression model
model <- lm(mpg~disp+hp, data=mtcars)

#calculate the number of model parameters - 1
k=length(model$ coefficients )-1

#calculate sum of squared residuals
SSE=sum(model$ residuals **2)

#calculate total observations in dataset
n=length(model$ residuals )

#calculate residual standard error
sqrt(SSE/(n-(1+k)))

[1] 3.126601

เราจะเห็นว่าข้อผิดพลาดมาตรฐานคงเหลือคือ 3.126601

วิธีการตีความข้อผิดพลาดมาตรฐานที่เหลือ

ตามที่กล่าวไว้ข้างต้น ความคลาดเคลื่อนมาตรฐานส่วนที่เหลือ (RSE) เป็นวิธีหนึ่งในการวัดค่าเบี่ยงเบนมาตรฐานของส่วนที่เหลือในแบบจำลองการถดถอย

ยิ่งค่า CSR ต่ำ โมเดลก็ยิ่งสามารถใส่ข้อมูลได้ดีขึ้นเท่านั้น (แต่ต้องระวัง overfitting ) นี่อาจเป็นเมตริกที่มีประโยชน์เพื่อใช้ในการเปรียบเทียบโมเดลตั้งแต่ 2 โมเดลขึ้นไป เพื่อพิจารณาว่าโมเดลใดที่เหมาะกับข้อมูลมากที่สุด

แหล่งข้อมูลเพิ่มเติม

วิธีการตีความข้อผิดพลาดมาตรฐานที่เหลือ
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน R
วิธีตรวจสอบประสิทธิภาพของโมเดลใน R
วิธีการคำนวณค่าเบี่ยงเบนมาตรฐานใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *