วิธีค้นหาค่าสัมประสิทธิ์การกำหนด (r-squared) ใน r
ค่าสัมประสิทธิ์การกำหนด (โดยทั่วไปแสดงแทน R 2 ) คือสัดส่วนของความแปรปรวนของ ตัวแปรตอบสนอง ที่สามารถอธิบายได้ด้วยตัวแปรอธิบายในแบบจำลองการถดถอย
บทช่วยสอนนี้ให้ตัวอย่างวิธีค้นหาและตีความ R2 ในแบบจำลองการถดถอยใน R
ที่เกี่ยวข้อง: ค่า R-squared ที่ดีคืออะไร?
ตัวอย่าง: การค้นหาและการตีความ R-square ใน R
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งประกอบด้วยข้อมูลเกี่ยวกับจำนวนชั่วโมงที่เรียน การสอบเตรียมสอบ และคะแนนสอบที่ได้รับสำหรับนักเรียน 15 คน:
#create data frame df <- data.frame(hours=c(1, 2, 2, 4, 2, 1, 5, 4, 2, 4, 4, 3, 6, 5, 3), prep_exams=c(1, 3, 3, 5, 2, 2, 1, 1, 0, 3, 4, 3, 2, 4, 4), score=c(76, 78, 85, 88, 72, 69, 94, 94, 88, 92, 90, 75, 96, 90, 82)) #view first six rows of data frame head(df) hours prep_exams score 1 1 1 76 2 2 3 78 3 2 3 85 4 4 5 88 5 2 2 72 6 1 2 69
รหัสต่อไปนี้แสดงวิธีปรับ โมเดลการถดถอยเชิงเส้นหลายตัว ให้พอดีกับชุดข้อมูลนี้ และแสดงเอาต์พุตของโมเดลใน R:
#fit regression model model <- lm(score~hours+prep_exams, data=df) #view model summary summary(model) Call: lm(formula = score ~ hours + prep_exams, data = df) Residuals: Min 1Q Median 3Q Max -7.9896 -2.5514 0.3079 3.3370 7.0352 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 71.8078 3.5222 20.387 1.12e-10 *** hours 5.0247 0.8964 5.606 0.000115 *** prep_exams -1.2975 0.9689 -1.339 0.205339 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.944 on 12 degrees of freedom Multiple R-squared: 0.7237, Adjusted R-squared: 0.6776 F-statistic: 15.71 on 2 and 12 DF, p-value: 0.0004454
R-squared ของโมเดล (แสดงที่ด้านล่างสุดของเอาต์พุต) กลายเป็น 0.7237
ซึ่งหมายความว่า 72.37% ของการเปลี่ยนแปลงของคะแนนสอบสามารถอธิบายได้ด้วยจำนวนชั่วโมงเรียนและจำนวนข้อสอบฝึกหัดที่สอบ
โปรดทราบว่าคุณยังสามารถเข้าถึงค่านี้โดยใช้ไวยากรณ์ต่อไปนี้:
summary(model)$r.squared [1] 0.7236545
วิธีการตีความค่า R-squared
ค่า R กำลังสองจะอยู่ระหว่าง 0 ถึง 1 เสมอ
ค่า 1 บ่งชี้ว่าตัวแปรอธิบายสามารถอธิบายความแปรปรวนของตัวแปรตอบสนองได้อย่างสมบูรณ์แบบ และค่า 0 บ่งชี้ว่าตัวแปรอธิบายไม่มีความสามารถในการอธิบายความแปรปรวนของตัวแปรตอบสนองได้
โดยทั่วไป ยิ่งค่า R-squared ของแบบจำลองการถดถอยมีค่ามากเท่าใด ตัวแปรอธิบายก็จะสามารถทำนายค่าของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น
ลองอ่าน บทความนี้ เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการพิจารณาว่าค่า R-squared ที่กำหนดนั้นถือว่า “ดี” สำหรับแบบจำลองการถดถอยที่กำหนดหรือไม่
ที่เกี่ยวข้อง: วิธีการคำนวณ R-squared ที่ปรับแล้วใน R