การถดถอยพหุนามใน r (ทีละขั้นตอน)


การถดถอยพหุนาม เป็นเทคนิคที่เราสามารถใช้ได้เมื่อความสัมพันธ์ระหว่างตัวแปรทำนายและ ตัวแปรตอบสนอง ไม่เป็นเชิงเส้น

การถดถอยประเภทนี้อยู่ในรูปแบบ:

Y = β 0 + β 1 X + β 2 X 2 + … + β ชั่วโมง

โดยที่ h คือ “ดีกรี” ของพหุนาม

บทช่วยสอนนี้ให้ตัวอย่างทีละขั้นตอนของวิธีการถดถอยพหุนามใน R

ขั้นตอนที่ 1: สร้างข้อมูล

สำหรับตัวอย่างนี้ เราจะสร้างชุดข้อมูลที่ประกอบด้วยจำนวนชั่วโมงที่เรียนและคะแนนสอบปลายภาคสำหรับชั้นเรียนที่มีนักเรียน 50 คน:

 #make this example reproducible
set.seed(1)

#create dataset
df <- data.frame(hours = runif (50, 5, 15), score=50)
df$score = df$score + df$hours^3/150 + df$hours* runif (50, 1, 2)

#view first six rows of data
head(data)

      hours score
1 7.655087 64.30191
2 8.721239 70.65430
3 10.728534 73.66114
4 14.082078 86.14630
5 7.016819 59.81595
6 13.983897 83.60510

ขั้นตอนที่ 2: แสดงภาพข้อมูล

ก่อนที่จะปรับแบบจำลองการถดถอยให้เข้ากับข้อมูล ขั้นแรกให้สร้างแผนภูมิกระจายเพื่อแสดงภาพความสัมพันธ์ระหว่างชั่วโมงที่เรียนและคะแนนสอบ:

 library (ggplot2)

ggplot(df, aes (x=hours, y=score)) +
  geom_point() 

เราจะเห็นว่าข้อมูลมีความสัมพันธ์แบบกำลังสองเล็กน้อย ซึ่งบ่งชี้ว่าการถดถอยพหุนามอาจพอดีกับข้อมูลได้ดีกว่าการถดถอยเชิงเส้นแบบธรรมดา

ขั้นตอนที่ 3: ปรับโมเดลการถดถอยพหุนามให้เหมาะสม

ต่อไป เราจะใส่แบบจำลองการถดถอยพหุนามที่แตกต่างกันห้าแบบที่มีองศา h = 1…5 และใช้การตรวจสอบความถูกต้องข้ามแบบ k-fold ด้วย k = 10 ครั้งเพื่อคำนวณการทดสอบ MSE สำหรับแต่ละรุ่น:

 #randomly shuffle data
df.shuffled <- df[ sample ( nrow (df)),]

#define number of folds to use for k-fold cross-validation
K <- 10 

#define degree of polynomials to fit
degree <- 5

#create k equal-sized folds
folds <- cut( seq (1, nrow (df.shuffled)), breaks=K, labels= FALSE )

#create object to hold MSE's of models
mse = matrix(data=NA,nrow=K,ncol=degree)

#Perform K-fold cross validation
for (i in 1:K){
    
#define training and testing data
testIndexes <- which (folds==i,arr.ind= TRUE )
    testData <- df.shuffled[testIndexes, ]
    trainData <- df.shuffled[-testIndexes, ]
    
#use k-fold cv to evaluate models
for (j in 1:degree){
        fit.train = lm (score ~ poly (hours,d), data=trainData)
        fit.test = predict (fit.train, newdata=testData)
        mse[i,j] = mean ((fit.test-testData$score)^2) 
    }
}

#find MSE for each degree 
colMeans(mse)

[1] 9.802397 8.748666 9.601865 10.592569 13.545547

จากผลลัพธ์เราจะเห็นการทดสอบ MSE สำหรับแต่ละรุ่น:

  • การทดสอบ MSE ด้วยองศา h = 1: 9.80
  • การทดสอบ MSE ด้วยองศา h = 2: 8.75
  • การทดสอบ MSE ด้วยองศา h = 3: 9.60
  • การทดสอบ MSE ด้วยองศา h = 4: 10.59
  • การทดสอบ MSE ด้วยองศา h = 5: 13.55

แบบจำลองที่มีการทดสอบ MSE ต่ำสุดกลายเป็นแบบจำลองการถดถอยพหุนามที่มีระดับ h = 2

สิ่งนี้ตรงกับสัญชาตญาณของเราจากแผนกระจายดั้งเดิม: แบบจำลองการถดถอยกำลังสองเหมาะสมกับข้อมูลมากที่สุด

ขั้นตอนที่ 4: วิเคราะห์แบบจำลองขั้นสุดท้าย

ในที่สุด เราก็จะได้ค่าสัมประสิทธิ์ของโมเดลที่มีประสิทธิภาพดีที่สุด:

 #fit best model
best = lm (score ~ poly (hours,2, raw= T ), data=df)

#view summary of best model
summary(best)

Call:
lm(formula = score ~ poly(hours, 2, raw = T), data = df)

Residuals:
    Min 1Q Median 3Q Max 
-5.6589 -2.0770 -0.4599 2.5923 4.5122 

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept) 54.00526 5.52855 9.768 6.78e-13 ***
poly(hours, 2, raw = T)1 -0.07904 1.15413 -0.068 0.94569    
poly(hours, 2, raw = T)2 0.18596 0.05724 3.249 0.00214 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

จากผลลัพธ์ เราจะเห็นได้ว่าโมเดลที่ติดตั้งขั้นสุดท้ายคือ:

คะแนน = 54.00526 – 0.07904*(ชั่วโมง) + 0.18596*(ชั่วโมง) 2

เราสามารถใช้สมการนี้เพื่อประมาณคะแนนที่นักเรียนจะได้รับตามจำนวนชั่วโมงที่เรียน

เช่น นักเรียนที่เรียน 10 ชั่วโมง ควรได้เกรด 71.81 :

คะแนน = 54.00526 – 0.07904*(10) + 0.18596*(10) 2 = 71.81

นอกจากนี้เรายังสามารถพล็อตโมเดลที่ติดตั้งเพื่อดูว่ามันเข้ากับข้อมูลดิบได้ดีเพียงใด:

 ggplot(df, aes (x=hours, y=score)) + 
          geom_point() +
          stat_smooth(method=' lm ', formula = y ~ poly (x,2), size = 1) + 
          xlab(' Hours Studied ') +
          ylab(' Score ') 

การถดถอยพหุนามใน R

คุณสามารถค้นหาโค้ด R แบบเต็มที่ใช้ในตัวอย่างนี้ ได้ ที่นี่

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *