วิธีตีความ r-squared ที่ปรับแล้ว (พร้อมตัวอย่าง)


เมื่อเราปรับ โมเดลการถดถอยเชิงเส้นให้เหมาะสม เรามักจะคำนวณค่า R-squared ของโมเดล

ค่า R-squared คือสัดส่วนของความแปรปรวนใน ตัวแปรตอบสนอง ที่สามารถอธิบายได้ด้วยตัวแปรทำนายในแบบจำลอง

ค่าของ R กำลังสองอาจแตกต่างกันตั้งแต่ 0 ถึง 1 โดยที่:

  • ค่า 0 บ่งชี้ว่าตัวแปรตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย
  • ค่า 1 บ่งชี้ว่าตัวแปรตอบสนองสามารถอธิบายได้อย่างสมบูรณ์แบบด้วยตัวแปรทำนาย

แม้ว่าโดยทั่วไปจะใช้หน่วยวัดนี้เพื่อประเมินว่าแบบจำลองการถดถอยเหมาะสมกับชุดข้อมูลเพียงใด แต่ก็มีข้อเสียเปรียบร้ายแรง:

ข้อเสียของ R-squared:

ค่า R-squared จะเพิ่มขึ้นเสมอเมื่อมีการเพิ่มตัวแปรทำนายใหม่ให้กับแบบจำลองการถดถอย

แม้ว่าตัวแปรทำนายใหม่แทบจะไม่มีความสัมพันธ์กับตัวแปรตอบสนอง ค่า R-squared ของแบบจำลองจะเพิ่มขึ้น แม้ว่าจะเพียงเล็กน้อยเท่านั้นก็ตาม

ด้วยเหตุนี้ จึงเป็นไปได้ที่แบบจำลองการถดถอยที่มีตัวแปรตัวทำนายจำนวนมากจะมีค่า R-squared สูง แม้ว่าแบบจำลองนั้นจะเข้ากับข้อมูลได้ไม่ดีนักก็ตาม

โชคดีที่มีทางเลือกอื่นสำหรับ R-squared ที่เรียกว่า R-squared ที่ปรับแล้ว

R-squared ที่ปรับปรุงแล้ว คือ R-squared เวอร์ชันแก้ไขที่ปรับตามจำนวนตัวทำนายในแบบจำลองการถดถอย

มีการคำนวณดังนี้:

ปรับแล้ว R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

ทอง:

  • R 2 : R 2 ของรุ่น
  • n : จำนวนการสังเกต
  • k : จำนวนตัวแปรทำนาย

เนื่องจาก R-squared จะเพิ่มขึ้นเสมอเมื่อคุณเพิ่มตัวทำนายให้กับโมเดล R-squared ที่ปรับแล้วจึงสามารถบอกคุณได้ว่าแบบจำลองนั้นมีประโยชน์เพียงใด โดยปรับตามจำนวนตัวทำนายในแบบจำลอง

ข้อดีของการปรับ R-squared:

R-squared ที่ปรับแล้วจะบอกเราว่าชุดของตัวแปรทำนายสามารถอธิบายความแปรผันของตัวแปรตอบสนองได้ดีเพียงใด โดยปรับตามจำนวนตัวทำนายในแบบจำลอง

เนื่องจากวิธีการคำนวณ จึงสามารถใช้ค่า R-squared ที่ปรับแล้วเพื่อเปรียบเทียบความพอดีของแบบจำลองการถดถอยกับตัวแปรตัวทำนายจำนวนต่างๆ

เพื่อให้เข้าใจ R-squared ที่ปรับแล้วได้ดีขึ้น โปรดดูตัวอย่างต่อไปนี้

ตัวอย่าง: การทำความเข้าใจค่า R-squared ที่ปรับปรุงแล้วในโมเดลการถดถอย

สมมติว่าศาสตราจารย์รวบรวมข้อมูลเกี่ยวกับนักเรียนในชั้นเรียนของเขาและเหมาะกับแบบจำลองการถดถอยต่อไปนี้ เพื่อทำความเข้าใจว่าชั่วโมงการเรียนและเกรดปัจจุบันในชั้นเรียนส่งผลต่อเกรดที่นักเรียนได้รับในการสอบปลายภาคอย่างไร

คะแนนสอบ = β 0 + β 1 (ชั่วโมงเรียน) + β 2 (เกรดปัจจุบัน)

สมมติว่าโมเดลการถดถอยนี้มีหน่วยเมตริกต่อไปนี้:

  • R กำลังสอง: 0.955
  • ปรับ R-squared แล้ว: 0.946

ตอนนี้ สมมติว่าครูตัดสินใจรวบรวมข้อมูลของตัวแปรอื่นสำหรับนักเรียนแต่ละคน: ขนาดรองเท้า

แม้ว่าตัวแปรนี้ไม่ควรมีความเกี่ยวข้องกับเกรดการสอบปลายภาค แต่เขาตัดสินใจปรับแบบจำลองการถดถอยต่อไปนี้:

คะแนนสอบ = β 0 + β 1 (ชั่วโมงที่ใช้เรียน) + β 2 (ปีปัจจุบัน) + β 3 (ขนาดรองเท้า)

สมมติว่าโมเดลการถดถอยนี้มีหน่วยเมตริกต่อไปนี้:

  • R กำลังสอง: 0.965
  • ปรับค่า R-squared แล้ว: 0.902

หากเราดูเฉพาะค่า R-squared สำหรับแต่ละโมเดลการถดถอยทั้งสองนี้ เราก็จะสรุปได้ว่าโมเดลที่สองควรใช้ดีกว่าเพราะมีค่า R-squared ที่สูงกว่า!

อย่างไรก็ตาม หากเราดูค่า R-squared ที่ปรับ แล้ว เราจะได้ข้อสรุปที่แตกต่างออกไป: ควรใช้แบบจำลองแรกดีกว่าเพราะมีค่า R-squared ที่ปรับสูงกว่า

รุ่นที่สองมีเพียงค่า R-squared ที่สูงกว่าเนื่องจากมีตัวแปรทำนายมากกว่ารุ่นแรก

อย่างไรก็ตาม ตัวแปรทำนายที่เราเพิ่ม (ขนาดรองเท้า) เป็นตัวทำนายคะแนนสอบปลายภาคได้ไม่ดี ดังนั้นค่า R-squared ที่ปรับแล้วจึงลงโทษโมเดลสำหรับการเพิ่มตัวแปรทำนายนี้

ตัวอย่างนี้แสดงให้เห็นว่าเหตุใดค่า R-squared ที่ปรับแล้วจึงเป็นหน่วยเมตริกที่ดีกว่าที่จะใช้เมื่อเปรียบเทียบความพอดีของแบบจำลองการถดถอยกับตัวแปรตัวทำนายที่มีจำนวนต่างกัน

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีคำนวณค่า R-squared ที่ปรับแล้วโดยใช้ซอฟต์แวร์ทางสถิติต่างๆ

วิธีการคำนวณ R-squared ที่ปรับแล้วใน R
วิธีการคำนวณ R-squared ที่ปรับแล้วใน Excel
วิธีการคำนวณ R-squared ที่ปรับแล้วใน Python

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *