วิธีอ่านและตีความตารางการถดถอย
ในสถิติ การถดถอย เป็นเทคนิคที่สามารถใช้เพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง
เมื่อคุณใช้ซอฟต์แวร์ (เช่น R, SAS, SPSS ฯลฯ) เพื่อทำการวิเคราะห์การถดถอย คุณจะได้รับตารางการถดถอยที่สรุปผลการถดถอยเป็นเอาต์พุต สิ่งสำคัญคือต้องรู้วิธีอ่านตารางนี้เพื่อที่คุณจะได้เข้าใจผลลัพธ์ของการวิเคราะห์การถดถอย
บทช่วยสอนนี้แสดงตัวอย่างการวิเคราะห์การถดถอยและให้คำอธิบายโดยละเอียดเกี่ยวกับวิธีการอ่านและตีความผลลัพธ์ของตารางการถดถอย
ตัวอย่างของการถดถอย
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งแสดงจำนวนชั่วโมงเรียนทั้งหมด จำนวนการสอบเตรียมสอบทั้งหมด และเกรดสอบปลายภาคของนักเรียน 12 คน:
เพื่อวิเคราะห์ความสัมพันธ์ระหว่างชั่วโมงเรียนและการสอบเตรียมสอบกับเกรดการสอบปลายภาคที่นักเรียนได้รับ เราจะทำการถดถอยเชิงเส้นพหุคูณโดย ใช้ ชั่วโมงเรียน และการสอบ เตรียม สอบเป็นตัวแปรทำนาย และ เกรดสุดท้ายภายใต้การสอบ เป็นตัวแปรตอบสนอง
เราได้รับผลลัพธ์ดังต่อไปนี้:
การตรวจสอบโมเดลให้พอดี
ส่วนแรกจะแสดงตัวเลขต่างๆ มากมายที่วัดความเหมาะสมของโมเดลการถดถอย กล่าวคือ แบบจำลองการถดถอยสามารถ “พอดี” ชุดข้อมูลได้ดีเพียงใด
ต่อไปนี้เป็นวิธีการตีความตัวเลขแต่ละตัวในส่วนนี้:
หลายอาร์เอส
นี่คือ ค่าสัมประสิทธิ์สหสัมพันธ์ โดยจะวัดความแข็งแกร่งของความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายและตัวแปรตอบสนอง ผลคูณ R ของ 1 บ่งบอกถึงความสัมพันธ์เชิงเส้นที่สมบูรณ์แบบ ในขณะที่ผลคูณ R ของ 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้น ตัวคูณ R คือรากที่สองของ R กำลังสอง (ดูด้านล่าง)
ในตัวอย่างนี้ ค่าพหุคูณของ R คือ 0.72855 ซึ่งบ่งชี้ถึงความสัมพันธ์เชิงเส้นที่ค่อนข้างชัดเจนระหว่าง ชั่วโมงการศึกษา และ การสอบเตรียมการ ของผู้ทำนายและ เกรดการสอบปลายภาค ของตัวแปรตอบสนอง
R-กำลังสอง
ซึ่งมักเขียนเป็น r2 และเรียกอีกอย่างว่า สัมประสิทธิ์ การตัดสินใจ นี่คือสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนาย
ค่า R-squared สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่า 0 บ่งชี้ว่าตัวแปรการตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย ค่า 1 บ่งชี้ว่าตัวแปรตัวทำนายสามารถอธิบายตัวแปรตอบสนองได้อย่างสมบูรณ์แบบโดยไม่มีข้อผิดพลาด
ในตัวอย่างนี้ ค่า R-squared คือ 0.5307 ซึ่งบ่งชี้ว่า 53.07% ของความแปรปรวนในคะแนนสอบปลายภาคสามารถอธิบายได้ด้วยจำนวนชั่วโมงที่เรียนและจำนวนข้อสอบฝึกหัดที่ผ่านมา
ที่เกี่ยวข้อง: ค่า R-squared ที่ดีคืออะไร?
ปรับ R-squared แล้ว
นี่เป็นเวอร์ชันแก้ไขของ R-squared ที่ได้รับการปรับเปลี่ยนตามจำนวนตัวทำนายในแบบจำลอง มันจะน้อยกว่า R กำลังสองเสมอ R-squared ที่ปรับแล้วจะมีประโยชน์ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยที่แตกต่างกันระหว่างกัน
ในตัวอย่างนี้ ค่า R-squared ที่ปรับปรุงแล้วคือ 0.4265
ข้อผิดพลาดมาตรฐานของการถดถอย
ข้อผิดพลาดมาตรฐานของการถดถอยคือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ในตัวอย่างนี้ ค่าที่สังเกตได้เบี่ยงเบนโดยเฉลี่ย 7.3267 หน่วยจากเส้นถดถอย
ที่เกี่ยวข้อง: การทำความเข้าใจข้อผิดพลาดมาตรฐานของการถดถอย
ความคิดเห็น
นี่เป็นเพียงจำนวน ข้อสังเกต ในชุดข้อมูลของเรา ในตัวอย่างนี้ จำนวนการสังเกตทั้งหมดคือ 12
การทดสอบความสำคัญโดยรวมของแบบจำลองการถดถอย
ส่วนต่อไปนี้จะแสดงระดับความอิสระ ผลรวมของกำลังสอง ค่าเฉลี่ยกำลังสอง สถิติ F และนัยสำคัญโดยรวมของแบบจำลองการถดถอย
ต่อไปนี้เป็นวิธีการตีความตัวเลขแต่ละตัวในส่วนนี้:
องศาความเป็นอิสระของการถดถอย
จำนวนนี้เท่ากับ: จำนวนสัมประสิทธิ์การถดถอย – 1 ในตัวอย่างนี้ เรามีเทอมดั้งเดิมและตัวแปรทำนายสองตัว ดังนั้นเราจึงมีสัมประสิทธิ์การถดถอยทั้งหมดสามค่า ซึ่งหมายความว่า ระดับความอิสระของการถดถอยคือ 3 – 1 = 2 .
องศาความเป็นอิสระทั้งหมด
จำนวนนี้เท่ากับ: จำนวนการสังเกต – 1 ในตัวอย่างนี้ เรามีการสังเกต 12 ครั้ง ดังนั้น จำนวนองศาอิสระทั้งหมดคือ 12 – 1 = 11
องศาอิสระที่เหลืออยู่
จำนวนนี้เท่ากับ: รวม df – การถดถอย df ในตัวอย่างนี้ องศาอิสระที่เหลืออยู่คือ 11 – 2 = 9
สี่เหลี่ยมหมายถึง
กำลังสองเฉลี่ยของการถดถอยคำนวณโดยการถดถอย SS/df ในตัวอย่างนี้ การถดถอย MS = 546.53308 / 2 = 273.2665
กำลังสองเฉลี่ยคงเหลือคำนวณโดย SS คงเหลือ/df คงเหลือ ในตัวอย่างนี้ MS ที่เหลือ = 483.1335 / 9 = 53.68151
สถิติเอฟ
สถิติ f คำนวณเป็นการถดถอยของ MS/ค่าคงเหลือของ MS สถิตินี้บ่งชี้ว่าแบบจำลองการถดถอยมีความเหมาะสมกับข้อมูลมากกว่าแบบจำลองที่ไม่มีตัวแปรอิสระหรือไม่
โดยพื้นฐานแล้ว จะทดสอบว่าแบบจำลองการถดถอยโดยรวมมีประโยชน์หรือไม่ โดยทั่วไป หากไม่มีตัวแปรทำนายในแบบจำลองที่มีนัยสำคัญทางสถิติ สถิติ F โดยรวมก็ไม่มีนัยสำคัญทางสถิติเช่นกัน
ในตัวอย่างนี้ สถิติ F คือ 273.2665 / 53.68151 = 5.09
ความสำคัญของ F (ค่า P)
ค่าสุดท้ายในตารางคือค่า p ที่เกี่ยวข้องกับสถิติ F หากต้องการดูว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญหรือไม่ คุณสามารถเปรียบเทียบค่า p กับระดับนัยสำคัญได้ ตัวเลือกทั่วไปคือ .01, .05 และ .10
หากค่า p ต่ำกว่าระดับนัยสำคัญ มีหลักฐานเพียงพอที่จะสรุปได้ว่าแบบจำลองการถดถอยเหมาะสมกับข้อมูลได้ดีกว่าแบบจำลองที่ไม่มีตัวแปรทำนาย ผลลัพธ์นี้เป็นค่าบวกเนื่องจากหมายความว่าตัวแปรทำนายของแบบจำลองช่วยปรับปรุงความพอดีของแบบจำลองได้จริง
ในตัวอย่างนี้ ค่า p คือ 0.033 ซึ่งต่ำกว่าระดับนัยสำคัญทั่วไปที่ 0.05 สิ่งนี้บ่งชี้ว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติ กล่าวคือ แบบจำลองเหมาะสมกับข้อมูลได้ดีกว่าแบบจำลองที่ไม่มีตัวแปรทำนาย
การทดสอบความสำคัญโดยรวมของแบบจำลองการถดถอย
ส่วนสุดท้ายจะแสดงการประมาณค่าสัมประสิทธิ์ ความคลาดเคลื่อนมาตรฐานของการประมาณการ สถิติ t ค่า p และช่วงความเชื่อมั่นสำหรับแต่ละเทอมในแบบจำลองการถดถอย
ต่อไปนี้เป็นวิธีการตีความตัวเลขแต่ละตัวในส่วนนี้:
ค่าสัมประสิทธิ์
ค่าสัมประสิทธิ์ให้ตัวเลขที่จำเป็นในการเขียนสมการการถดถอยโดยประมาณ:
หมวก y = b 0 + b 1 x 1 + b 2 x 2 .
ในตัวอย่างนี้ สมการการถดถอยโดยประมาณคือ:
คะแนนสอบปลายภาค = 66.99 + 1.299 (ชั่วโมงเรียน) + 1.117 (สอบเตรียมอุดมศึกษา)
ค่าสัมประสิทธิ์แต่ละตัวจะถูกตีความว่าเป็นการเพิ่มขึ้นโดยเฉลี่ยของตัวแปรตอบสนองสำหรับการเพิ่มขึ้นของตัวแปรทำนายที่กำหนดหนึ่งหน่วย โดยสมมติว่าตัวแปรตัวทำนายอื่นๆ ทั้งหมดยังคงที่ ตัวอย่างเช่น สำหรับชั่วโมงเรียนเพิ่มเติมแต่ละชั่วโมง คะแนนสอบปลายภาคที่เพิ่มขึ้นโดยเฉลี่ยที่คาดหวังคือ 1,299 คะแนน โดยสมมติว่าจำนวนการสอบเตรียมสอบคงที่
การสกัดกั้นจะถูกตีความว่าเป็นเกรดเฉลี่ยที่คาดหวังในการสอบปลายภาคสำหรับนักเรียนที่เรียนเป็นเวลา 0 ชั่วโมงและไม่มีการสอบเพื่อเตรียมการ ในตัวอย่างนี้ นักเรียนจะต้องได้คะแนน 66.99 หากเรียนเป็นเวลา 0 ชั่วโมงและไม่มีการสอบเพื่อเตรียมตัว โปรดใช้ความระมัดระวังเมื่อตีความค่าตัดกันของผลลัพธ์การถดถอย เนื่องจากอาจไม่สมเหตุสมผลเสมอไป
ตัวอย่างเช่น ในบางกรณี ค่าตัดแกนอาจกลายเป็นจำนวนลบ ซึ่งมักไม่มีการตีความที่ชัดเจน นี่ไม่ได้หมายความว่าแบบจำลองนั้นผิด แต่เพียงหมายความว่าการสกัดกั้นนั้นไม่ควรตีความว่ามีความหมายอะไรเลย
ข้อผิดพลาดมาตรฐาน สถิติ t และค่า p
ข้อผิดพลาดมาตรฐานคือการวัดความไม่แน่นอนของการประมาณค่าสัมประสิทธิ์ของตัวแปรแต่ละตัว
t-stat เป็นเพียงค่าสัมประสิทธิ์หารด้วยค่าคลาดเคลื่อนมาตรฐาน ตัวอย่างเช่น ค่า t-stat สำหรับ ชั่วโมงเรียน คือ 1.299 / 0.417 = 3.117
คอลัมน์ถัดไปแสดงค่า p ที่เกี่ยวข้องกับ t-stat ตัวเลขนี้บอกเราว่าตัวแปรตอบสนองที่กำหนดมีความสำคัญในโมเดลหรือไม่ ในตัวอย่างนี้ เราจะเห็นว่าค่า p สำหรับ ชั่วโมงเรียน คือ 0.012 และค่า p สำหรับ การสอบเตรียมสอบ คือ 0.304 สิ่งนี้บ่งชี้ว่า ชั่วโมงเรียน เป็นตัวทำนายผลสอบปลายภาคที่สำคัญ ไม่เหมือน ข้อสอบฝึกหัด
ช่วงความเชื่อมั่นสำหรับการประมาณค่าสัมประสิทธิ์
สองคอลัมน์สุดท้ายของตารางแสดงขอบเขตล่างและบนของช่วงความเชื่อมั่น 95% สำหรับการประมาณค่าสัมประสิทธิ์
ตัวอย่างเช่น การประมาณค่าสัมประสิทธิ์สำหรับ ชั่วโมงเรียน คือ 1.299 แต่มีค่าประมาณนี้มีความไม่แน่นอนอยู่บ้าง เราไม่มีทางรู้แน่ว่านี่คือสัมประสิทธิ์แน่นอนหรือไม่ ดังนั้นช่วงความเชื่อมั่น 95% ทำให้เรามีช่วงค่าที่เป็นไปได้สำหรับสัมประสิทธิ์ที่แท้จริง
ในกรณีนี้ ช่วงความเชื่อมั่น 95% สำหรับ ชั่วโมงการศึกษา คือ (0.356, 2.24) โปรดทราบว่าช่วงความเชื่อมั่นนี้ไม่มีตัวเลข “0” ซึ่งหมายความว่าเรามั่นใจอย่างยิ่งว่าค่าที่แท้จริงของสัมประสิทธิ์ ชั่วโมงเรียนนั้น ไม่เป็นศูนย์ กล่าวคือ เป็นจำนวนบวก
ในทางตรงกันข้าม ช่วงความเชื่อมั่น 95% สำหรับ การสอบเตรียมสอบ คือ (-1.201, 3.436) โปรดทราบว่าช่วงความเชื่อมั่นนี้ ประกอบด้วย ตัวเลข “0” ซึ่งหมายความว่าค่าที่แท้จริงของสัมประสิทธิ์ของ การสอบเตรียมสอบ อาจเป็นศูนย์ กล่าวคือ ไม่มีนัยสำคัญในการทำนายผลการสอบปลายภาค
แหล่งข้อมูลเพิ่มเติม
ทำความเข้าใจสมมติฐานว่างสำหรับการถดถอยเชิงเส้น
ทำความเข้าใจการทดสอบ F สำหรับความสำคัญโดยรวมในการถดถอย
วิธีการรายงานผลการถดถอย