ค่า r-กำลังสองที่ดีคืออะไร?


R-squared วัดว่า แบบจำลองการถดถอยเชิงเส้น “พอดี” กับชุดข้อมูลได้ดีเพียงใด หรือที่เรียกกันทั่วไปว่า สัมประสิทธิ์การกำหนด R-squared คือสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนาย

ค่า R-squared สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่า 0 บ่งชี้ว่าตัวแปรการตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย ค่า 1 บ่งชี้ว่าตัวแปรตัวทำนายสามารถอธิบายตัวแปรตอบสนองได้อย่างสมบูรณ์แบบโดยไม่มีข้อผิดพลาด

ในทางปฏิบัติ คุณอาจไม่เห็นค่า 0 หรือ 1 สำหรับ R-squared เลย แต่คุณจะพบค่าระหว่าง 0 ถึง 1 แทน

ตัวอย่างเช่น สมมติว่าคุณมีชุดข้อมูลที่มีขนาดประชากรและจำนวนร้านดอกไม้ใน 30 เมือง คุณปรับโมเดลการถดถอยเชิงเส้นอย่างง่ายเข้ากับชุดข้อมูล โดยใช้ขนาดประชากรเป็นตัวแปรทำนาย และใช้การจัดดอกไม้เป็นตัวแปรตอบสนอง จากผลลัพธ์ของการถดถอย คุณจะเห็นว่า R 2 = 0.2 สิ่งนี้บ่งชี้ว่า 20% ของการเปลี่ยนแปลงในจำนวนร้านดอกไม้สามารถอธิบายได้ด้วยขนาดประชากร

สิ่งนี้นำเราไปสู่คำถามสำคัญ: นี่เป็นค่า “ดี” สำหรับ R-squared หรือไม่?

คำตอบสำหรับคำถามนี้ขึ้นอยู่กับเป้าหมายของคุณสำหรับแบบจำลองการถดถอย ที่จะรู้ว่า:

1. คุณต้องการอธิบายความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนองหรือไม่?

ทอง

2. คุณต้องการทำนายตัวแปรตอบสนองหรือไม่?

คำตอบสำหรับคำถาม “ค่าที่ดีสำหรับ R กำลังสองคืออะไร” ขึ้นอยู่กับ วัตถุประสงค์ ” จะแตกต่างออกไป

อธิบายความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนอง

หากเป้าหมายหลักของคุณสำหรับแบบจำลองการถดถอยของคุณคือการอธิบายความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนอง ค่า R-squared นั้นแทบจะไม่เกี่ยวข้องเลย

ตัวอย่างเช่น สมมติว่าในตัวอย่างการถดถอยด้านบน คุณเห็นว่าค่าสัมประสิทธิ์ของ ขนาดประชากร ตามการคาดการณ์คือ 0.005 และมีนัยสำคัญทางสถิติ ซึ่งหมายความว่าการเพิ่มขึ้นของประชากรหนึ่งคนสัมพันธ์กับการเพิ่มขึ้นเฉลี่ย 0.005 ในจำนวนร้านดอกไม้ในเมืองหนึ่งๆ นอกจากนี้ ขนาดประชากรยังเป็นตัวบ่งชี้ที่มีนัยสำคัญทางสถิติของจำนวนร้านดอกไม้ในเมือง

ไม่ว่าค่า R-squared ของแบบจำลองการถดถอยนี้คือ 0.2 หรือ 0.9 จะไม่เปลี่ยนการตีความนี้ เนื่องจากคุณเพียงสนใจ ความสัมพันธ์ ระหว่างขนาดประชากรและจำนวนร้านดอกไม้ คุณจึงไม่ต้องกังวลเกี่ยวกับค่า R-squared ของแบบจำลองมากเกินไป

ทำนายตัวแปรการตอบสนอง

หากเป้าหมายหลักของคุณคือการทำนายค่าของตัวแปรตอบสนองอย่างแม่นยำโดยใช้ตัวแปรทำนาย ค่า R-squared ก็มีความสำคัญ

โดยทั่วไป ยิ่งค่า R-squared มากขึ้น ตัวแปรทำนายก็จะสามารถทำนายค่าของตัวแปรตอบสนองได้แม่นยำมากขึ้นเท่านั้น

ค่าที่ต้องการสำหรับค่า R-squared ขึ้นอยู่กับความแม่นยำที่คุณต้องการ ตัวอย่างเช่น ในการศึกษาทางวิทยาศาสตร์ อาจจำเป็นที่ R-กำลังสองต้องมากกว่า 0.95 แบบจำลองการถดถอยจึงจะถือว่าเชื่อถือได้ ในพื้นที่อื่นๆ ค่า R กำลังสองเพียง 0.3 อาจเพียงพอหากชุดข้อมูลมีความแปรปรวนอย่างมาก

หากต้องการทราบว่าค่า R-squared ที่ “ดี” คืออะไร คุณจะต้องสำรวจว่าค่า R-squared ใดที่เป็นที่ยอมรับโดยทั่วไปในสาขาวิชาเฉพาะของคุณ หากคุณกำลังวิเคราะห์การถดถอยสำหรับลูกค้าหรือบริษัท คุณอาจถามพวกเขาได้ว่าค่า R-squared ที่ยอมรับได้คือค่าใด

ช่วงเวลาการคาดการณ์

ช่วงการคาดการณ์ จะระบุช่วงที่การสังเกตใหม่อาจตกอยู่ โดยขึ้นอยู่กับค่าของตัวแปรทำนาย ช่วงการทำนายที่แคบลงบ่งชี้ว่าตัวแปรทำนายสามารถทำนายตัวแปรตอบสนองได้แม่นยำยิ่งขึ้น

บ่อยครั้งที่ช่วงการคาดการณ์อาจมีประโยชน์มากกว่าค่า R-squared เนื่องจากจะให้ช่วงค่าที่แน่นอนซึ่งการสังเกตใหม่อาจตกอยู่ สิ่งนี้มีประโยชน์อย่างยิ่งหากเป้าหมายหลักในการถดถอยของคุณคือการทำนายค่าใหม่ของตัวแปรตอบสนอง

ตัวอย่างเช่น สมมติว่าประชากร 40,000 คนสร้างช่วงการคาดการณ์ที่ 30 ถึง 35 ร้านดอกไม้ในเมืองหนึ่งๆ นี่อาจหรืออาจไม่ถือเป็นช่วงของค่าที่ยอมรับได้ ขึ้นอยู่กับการใช้แบบจำลองการถดถอย

บทสรุป

โดยทั่วไป ยิ่งค่า R-squared มากขึ้น ตัวแปรทำนายก็จะสามารถทำนายค่าของตัวแปรตอบสนองได้แม่นยำมากขึ้นเท่านั้น

ค่า R-squared ที่ดีเพียงใดจึงจะถือว่า “ดี” จะแตกต่างกันไปขึ้นอยู่กับโดเมน บางฟิลด์ต้องการความแม่นยำสูงกว่าฟิลด์อื่นๆ

หากต้องการทราบว่าค่า R-squared “ดี” คืออะไร ให้พิจารณาค่า R-squared ที่เป็นที่ยอมรับโดยทั่วไปในสาขาที่คุณทำงานอยู่ ถามผู้มีความรู้เฉพาะด้านในสาขาเฉพาะ หรือถามลูกค้า บริษัทที่คุณกำลังดำเนินการวิเคราะห์การถดถอย สำหรับสิ่งที่พวกเขาถือว่าเป็นที่ยอมรับ

หากคุณต้องการอธิบายความสัมพันธ์ระหว่างตัวทำนายและตัวแปรตอบสนอง R-squared ไม่มีความเกี่ยวข้องมากนัก เนื่องจากไม่มีผลกระทบต่อการตีความแบบจำลองการถดถอย

หากคุณต้องการทำนายตัวแปรตอบสนอง โดยทั่วไปช่วงการทำนายจะมีประโยชน์มากกว่าค่า R-squared

อ่านเพิ่มเติม:

สัมประสิทธิ์สหสัมพันธ์เพียร์สัน
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *