ค่า rmse ที่ดีถือว่าเป็นอย่างไร?


วิธีหนึ่งในการประเมินว่า แบบจำลองการถดถอย เหมาะสมกับชุดข้อมูลได้ดีเพียงใดคือการคำนวณ ค่าคลาดเคลื่อนกำลังสองเฉลี่ย ซึ่งบอกเราถึงระยะห่างเฉลี่ยระหว่างค่าที่คาดการณ์ของแบบจำลองกับค่าจริงของชุดข้อมูล ข้อมูล.

สูตรการหาค่าคลาดเคลื่อนกำลังสองเฉลี่ย ซึ่งมักเรียกสั้น ๆ ว่า RMSE คือ:

RMSE =Σ(พี i – O i ) 2 / n

ทอง:

  • Σ เป็นสัญลักษณ์แฟนซีที่หมายถึง “ผลรวม”
  • P i คือค่าที่ทำนายไว้สำหรับการสังเกต ครั้งที่ 3 ในชุดข้อมูล
  • O i คือค่าที่สังเกตได้สำหรับการสังเกต ครั้งที่ 3 ในชุดข้อมูล
  • n คือขนาดตัวอย่าง

คำถามที่คนมักถามคือ ค่า RMSE ที่ดีคืออะไร

คำตอบสั้น ๆ : มันขึ้นอยู่กับ .

ยิ่ง RMSE ต่ำเท่าไร โมเดลที่กำหนดก็จะสามารถ “พอดี” ชุดข้อมูลได้ดีขึ้นเท่านั้น อย่างไรก็ตาม ช่วงของชุดข้อมูลที่คุณกำลังใช้งานอยู่มีความสำคัญในการพิจารณาว่าค่า RMSE ที่กำหนดคือ “ต่ำ” หรือไม่

ตัวอย่างเช่น พิจารณาสถานการณ์ต่อไปนี้:

สถานการณ์ที่ 1: เราต้องการใช้แบบจำลองการถดถอยเพื่อทำนายราคาบ้านในเมืองหนึ่งๆ สมมติว่าโมเดลมีมูลค่า RMSE อยู่ที่ 500 เหรียญ เนื่องจากช่วงราคาบ้านโดยทั่วไปอยู่ระหว่าง 70,000 ถึง 300,000 เหรียญสหรัฐฯ ค่า RMSE นี้จึงต่ำมาก สิ่งนี้บอกเราว่าแบบจำลองสามารถทำนายราคาทรัพย์สินได้อย่างแม่นยำ

สถานการณ์ที่ 2: ตอนนี้ สมมติว่าเราต้องการใช้แบบจำลองการถดถอยเพื่อคาดการณ์ว่าคนๆ หนึ่งจะใช้เวลาเท่าไรต่อเดือนในเมืองหนึ่งๆ สมมติว่าโมเดลมีมูลค่า RMSE อยู่ที่ 500 เหรียญ หากช่วงการใช้จ่ายรายเดือนโดยทั่วไปอยู่ระหว่าง 1,500 ถึง 4,000 ดอลลาร์ ค่า RMSE นี้ค่อนข้างสูง นี่บอกเราว่าโมเดลนี้ไม่สามารถคาดการณ์ค่าใช้จ่ายรายเดือนได้อย่างแม่นยำมากนัก

ตัวอย่างง่ายๆ เหล่านี้แสดงให้เห็นว่าไม่มีค่า RMSE “ดี” ที่เป็นสากล ทุกอย่างขึ้นอยู่กับช่วงค่าของชุดข้อมูลที่คุณใช้งานอยู่

การทำให้ค่า RMSE เป็นมาตรฐาน

วิธีหนึ่งที่จะเข้าใจได้ดีขึ้นว่าค่า RMSE บางอย่างเป็น “ดี” หรือไม่คือการทำให้ค่า RMSE เป็นมาตรฐานโดยใช้สูตรต่อไปนี้:

RMSE ที่ทำให้เป็นมาตรฐาน = RMSE / (ค่าสูงสุด – ค่าต่ำสุด)

สิ่งนี้จะสร้างค่าระหว่าง 0 ถึง 1 โดยที่ค่าที่ใกล้กับ 0 แสดงถึงโมเดลที่เหมาะสมกว่า

ตัวอย่างเช่น สมมติว่ามูลค่า RMSE ของเราคือ 500 ดอลลาร์ และช่วงมูลค่าของเราคือ 70,000 ถึง 300,000 ดอลลาร์ เราจะคำนวณค่า RMSE ที่ทำให้เป็นมาตรฐานดังนี้:

  • RMSE ปกติ = $500 / ($300,000 – $70,000) = 0.002

ในทางกลับกัน สมมติว่ามูลค่า RMSE ของเราคือ 500 ดอลลาร์ และช่วงมูลค่าของเราอยู่ระหว่าง 1,500 ถึง 4,000 ดอลลาร์ เราจะคำนวณค่า RMSE ที่ทำให้เป็นมาตรฐานดังนี้:

  • RMSE ปกติ = $500 / ($4,000 – $1,500) = 0.2

ค่า RMSE ที่ทำให้เป็นมาตรฐานค่าแรกจะต่ำกว่ามาก ซึ่งบ่งชี้ว่ามีความเหมาะสมกับข้อมูลที่ดีกว่ามาก เมื่อเทียบกับค่า RMSE ที่ทำให้เป็นมาตรฐานค่าที่สอง

การเปรียบเทียบ RMSE ระหว่างรุ่นต่างๆ

แทนที่จะเลือกตัวเลขที่กำหนดเองเพื่อแสดงค่า RMSE ที่ “ดี” เราก็สามารถเปรียบเทียบค่า RMSE ของหลายรุ่นได้

ตัวอย่างเช่น สมมติว่าเราใส่แบบจำลองการถดถอยที่แตกต่างกันสามแบบเพื่อทำนายราคาอสังหาริมทรัพย์ สมมติว่าทั้งสามรุ่นมีค่า RMSE ต่อไปนี้:

  • รุ่น 1 RMSE: 550 ดอลลาร์
  • รุ่น 2 RMSE: 480 ดอลลาร์
  • รุ่น 3 RMSE: 1,400 ดอลลาร์

เนื่องจากค่า RMSE ของแบบจำลอง 2 ต่ำที่สุด เราจะเลือกแบบจำลอง 2 เป็นแบบจำลองที่ดีที่สุดในการคาดการณ์ราคาอสังหาริมทรัพย์ เนื่องจากระยะห่างเฉลี่ยระหว่างราคาที่คาดการณ์และราคาจริงนั้นต่ำที่สุดสำหรับแบบจำลองนี้

แหล่งข้อมูลเพิ่มเติม

วิธีการตีความ RMSE
วิธีการคำนวณ RMSE ใน Excel
วิธีการคำนวณ RMSE ใน R
วิธีการคำนวณ RMSE ใน Python
เครื่องคิดเลข RMSE

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *