วิธีอ่านและตีความตารางการถดถอย


ในสถิติ การถดถอย เป็นเทคนิคที่สามารถใช้เพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง

เมื่อคุณใช้ซอฟต์แวร์ (เช่น R, SAS, SPSS ฯลฯ) เพื่อทำการวิเคราะห์การถดถอย คุณจะได้รับตารางการถดถอยที่สรุปผลการถดถอยเป็นเอาต์พุต สิ่งสำคัญคือต้องรู้วิธีอ่านตารางนี้เพื่อที่คุณจะได้เข้าใจผลลัพธ์ของการวิเคราะห์การถดถอย

บทช่วยสอนนี้แสดงตัวอย่างการวิเคราะห์การถดถอยและให้คำอธิบายโดยละเอียดเกี่ยวกับวิธีการอ่านและตีความผลลัพธ์ของตารางการถดถอย

ตัวอย่างของการถดถอย

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งแสดงจำนวนชั่วโมงเรียนทั้งหมด จำนวนการสอบเตรียมสอบทั้งหมด และเกรดสอบปลายภาคของนักเรียน 12 คน:

เพื่อวิเคราะห์ความสัมพันธ์ระหว่างชั่วโมงเรียนและการสอบเตรียมสอบกับเกรดการสอบปลายภาคที่นักเรียนได้รับ เราจะทำการถดถอยเชิงเส้นพหุคูณโดย ใช้ ชั่วโมงเรียน และการสอบ เตรียม สอบเป็นตัวแปรทำนาย และ เกรดสุดท้ายภายใต้การสอบ เป็นตัวแปรตอบสนอง

เราได้รับผลลัพธ์ดังต่อไปนี้:

การตรวจสอบโมเดลให้พอดี

ส่วนแรกจะแสดงตัวเลขต่างๆ มากมายที่วัดความเหมาะสมของโมเดลการถดถอย กล่าวคือ แบบจำลองการถดถอยสามารถ “พอดี” ชุดข้อมูลได้ดีเพียงใด

ต่อไปนี้เป็นวิธีการตีความตัวเลขแต่ละตัวในส่วนนี้:

หลายอาร์เอส

นี่คือ ค่าสัมประสิทธิ์สหสัมพันธ์ โดยจะวัดความแข็งแกร่งของความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายและตัวแปรตอบสนอง ผลคูณ R ของ 1 บ่งบอกถึงความสัมพันธ์เชิงเส้นที่สมบูรณ์แบบ ในขณะที่ผลคูณ R ของ 0 บ่งชี้ว่าไม่มีความสัมพันธ์เชิงเส้น ตัวคูณ R คือรากที่สองของ R กำลังสอง (ดูด้านล่าง)

ในตัวอย่างนี้ ค่าพหุคูณของ R คือ 0.72855 ซึ่งบ่งชี้ถึงความสัมพันธ์เชิงเส้นที่ค่อนข้างชัดเจนระหว่าง ชั่วโมงการศึกษา และ การสอบเตรียมการ ของผู้ทำนายและ เกรดการสอบปลายภาค ของตัวแปรตอบสนอง

R-กำลังสอง

ซึ่งมักเขียนเป็น r2 และเรียกอีกอย่างว่า สัมประสิทธิ์ การตัดสินใจ นี่คือสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนาย

ค่า R-squared สามารถอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่า 0 บ่งชี้ว่าตัวแปรการตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย ค่า 1 บ่งชี้ว่าตัวแปรตัวทำนายสามารถอธิบายตัวแปรตอบสนองได้อย่างสมบูรณ์แบบโดยไม่มีข้อผิดพลาด

ในตัวอย่างนี้ ค่า R-squared คือ 0.5307 ซึ่งบ่งชี้ว่า 53.07% ของความแปรปรวนในคะแนนสอบปลายภาคสามารถอธิบายได้ด้วยจำนวนชั่วโมงที่เรียนและจำนวนข้อสอบฝึกหัดที่ผ่านมา

ที่เกี่ยวข้อง: ค่า R-squared ที่ดีคืออะไร?

ปรับ R-squared แล้ว

นี่เป็นเวอร์ชันแก้ไขของ R-squared ที่ได้รับการปรับเปลี่ยนตามจำนวนตัวทำนายในแบบจำลอง มันจะน้อยกว่า R กำลังสองเสมอ R-squared ที่ปรับแล้วจะมีประโยชน์ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยที่แตกต่างกันระหว่างกัน

ในตัวอย่างนี้ ค่า R-squared ที่ปรับปรุงแล้วคือ 0.4265

ข้อผิดพลาดมาตรฐานของการถดถอย

ข้อผิดพลาดมาตรฐานของการถดถอยคือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ในตัวอย่างนี้ ค่าที่สังเกตได้เบี่ยงเบนโดยเฉลี่ย 7.3267 หน่วยจากเส้นถดถอย

ที่เกี่ยวข้อง: การทำความเข้าใจข้อผิดพลาดมาตรฐานของการถดถอย

ความคิดเห็น

นี่เป็นเพียงจำนวน ข้อสังเกต ในชุดข้อมูลของเรา ในตัวอย่างนี้ จำนวนการสังเกตทั้งหมดคือ 12

การทดสอบความสำคัญโดยรวมของแบบจำลองการถดถอย

ส่วนต่อไปนี้จะแสดงระดับความอิสระ ผลรวมของกำลังสอง ค่าเฉลี่ยกำลังสอง สถิติ F และนัยสำคัญโดยรวมของแบบจำลองการถดถอย

ต่อไปนี้เป็นวิธีการตีความตัวเลขแต่ละตัวในส่วนนี้:

องศาความเป็นอิสระของการถดถอย

จำนวนนี้เท่ากับ: จำนวนสัมประสิทธิ์การถดถอย – 1 ในตัวอย่างนี้ เรามีเทอมดั้งเดิมและตัวแปรทำนายสองตัว ดังนั้นเราจึงมีสัมประสิทธิ์การถดถอยทั้งหมดสามค่า ซึ่งหมายความว่า ระดับความอิสระของการถดถอยคือ 3 – 1 = 2 .

องศาความเป็นอิสระทั้งหมด

จำนวนนี้เท่ากับ: จำนวนการสังเกต – 1 ในตัวอย่างนี้ เรามีการสังเกต 12 ครั้ง ดังนั้น จำนวนองศาอิสระทั้งหมดคือ 12 – 1 = 11

องศาอิสระที่เหลืออยู่

จำนวนนี้เท่ากับ: รวม df – การถดถอย df ในตัวอย่างนี้ องศาอิสระที่เหลืออยู่คือ 11 – 2 = 9

สี่เหลี่ยมหมายถึง

กำลังสองเฉลี่ยของการถดถอยคำนวณโดยการถดถอย SS/df ในตัวอย่างนี้ การถดถอย MS = 546.53308 / 2 = 273.2665

กำลังสองเฉลี่ยคงเหลือคำนวณโดย SS คงเหลือ/df คงเหลือ ในตัวอย่างนี้ MS ที่เหลือ = 483.1335 / 9 = 53.68151

สถิติเอฟ

สถิติ f คำนวณเป็นการถดถอยของ MS/ค่าคงเหลือของ MS สถิตินี้บ่งชี้ว่าแบบจำลองการถดถอยมีความเหมาะสมกับข้อมูลมากกว่าแบบจำลองที่ไม่มีตัวแปรอิสระหรือไม่

โดยพื้นฐานแล้ว จะทดสอบว่าแบบจำลองการถดถอยโดยรวมมีประโยชน์หรือไม่ โดยทั่วไป หากไม่มีตัวแปรทำนายในแบบจำลองที่มีนัยสำคัญทางสถิติ สถิติ F โดยรวมก็ไม่มีนัยสำคัญทางสถิติเช่นกัน

ในตัวอย่างนี้ สถิติ F คือ 273.2665 / 53.68151 = 5.09

ความสำคัญของ F (ค่า P)

ค่าสุดท้ายในตารางคือค่า p ที่เกี่ยวข้องกับสถิติ F หากต้องการดูว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญหรือไม่ คุณสามารถเปรียบเทียบค่า p กับระดับนัยสำคัญได้ ตัวเลือกทั่วไปคือ .01, .05 และ .10

หากค่า p ต่ำกว่าระดับนัยสำคัญ มีหลักฐานเพียงพอที่จะสรุปได้ว่าแบบจำลองการถดถอยเหมาะสมกับข้อมูลได้ดีกว่าแบบจำลองที่ไม่มีตัวแปรทำนาย ผลลัพธ์นี้เป็นค่าบวกเนื่องจากหมายความว่าตัวแปรทำนายของแบบจำลองช่วยปรับปรุงความพอดีของแบบจำลองได้จริง

ในตัวอย่างนี้ ค่า p คือ 0.033 ซึ่งต่ำกว่าระดับนัยสำคัญทั่วไปที่ 0.05 สิ่งนี้บ่งชี้ว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติ กล่าวคือ แบบจำลองเหมาะสมกับข้อมูลได้ดีกว่าแบบจำลองที่ไม่มีตัวแปรทำนาย

การทดสอบความสำคัญโดยรวมของแบบจำลองการถดถอย

ส่วนสุดท้ายจะแสดงการประมาณค่าสัมประสิทธิ์ ความคลาดเคลื่อนมาตรฐานของการประมาณการ สถิติ t ค่า p และช่วงความเชื่อมั่นสำหรับแต่ละเทอมในแบบจำลองการถดถอย

ต่อไปนี้เป็นวิธีการตีความตัวเลขแต่ละตัวในส่วนนี้:

ค่าสัมประสิทธิ์

ค่าสัมประสิทธิ์ให้ตัวเลขที่จำเป็นในการเขียนสมการการถดถอยโดยประมาณ:

หมวก y = b 0 + b 1 x 1 + b 2 x 2 .

ในตัวอย่างนี้ สมการการถดถอยโดยประมาณคือ:

คะแนนสอบปลายภาค = 66.99 + 1.299 (ชั่วโมงเรียน) + 1.117 (สอบเตรียมอุดมศึกษา)

ค่าสัมประสิทธิ์แต่ละตัวจะถูกตีความว่าเป็นการเพิ่มขึ้นโดยเฉลี่ยของตัวแปรตอบสนองสำหรับการเพิ่มขึ้นของตัวแปรทำนายที่กำหนดหนึ่งหน่วย โดยสมมติว่าตัวแปรตัวทำนายอื่นๆ ทั้งหมดยังคงที่ ตัวอย่างเช่น สำหรับชั่วโมงเรียนเพิ่มเติมแต่ละชั่วโมง คะแนนสอบปลายภาคที่เพิ่มขึ้นโดยเฉลี่ยที่คาดหวังคือ 1,299 คะแนน โดยสมมติว่าจำนวนการสอบเตรียมสอบคงที่

การสกัดกั้นจะถูกตีความว่าเป็นเกรดเฉลี่ยที่คาดหวังในการสอบปลายภาคสำหรับนักเรียนที่เรียนเป็นเวลา 0 ชั่วโมงและไม่มีการสอบเพื่อเตรียมการ ในตัวอย่างนี้ นักเรียนจะต้องได้คะแนน 66.99 หากเรียนเป็นเวลา 0 ชั่วโมงและไม่มีการสอบเพื่อเตรียมตัว โปรดใช้ความระมัดระวังเมื่อตีความค่าตัดกันของผลลัพธ์การถดถอย เนื่องจากอาจไม่สมเหตุสมผลเสมอไป

ตัวอย่างเช่น ในบางกรณี ค่าตัดแกนอาจกลายเป็นจำนวนลบ ซึ่งมักไม่มีการตีความที่ชัดเจน นี่ไม่ได้หมายความว่าแบบจำลองนั้นผิด แต่เพียงหมายความว่าการสกัดกั้นนั้นไม่ควรตีความว่ามีความหมายอะไรเลย

ข้อผิดพลาดมาตรฐาน สถิติ t และค่า p

ข้อผิดพลาดมาตรฐานคือการวัดความไม่แน่นอนของการประมาณค่าสัมประสิทธิ์ของตัวแปรแต่ละตัว

t-stat เป็นเพียงค่าสัมประสิทธิ์หารด้วยค่าคลาดเคลื่อนมาตรฐาน ตัวอย่างเช่น ค่า t-stat สำหรับ ชั่วโมงเรียน คือ 1.299 / 0.417 = 3.117

คอลัมน์ถัดไปแสดงค่า p ที่เกี่ยวข้องกับ t-stat ตัวเลขนี้บอกเราว่าตัวแปรตอบสนองที่กำหนดมีความสำคัญในโมเดลหรือไม่ ในตัวอย่างนี้ เราจะเห็นว่าค่า p สำหรับ ชั่วโมงเรียน คือ 0.012 และค่า p สำหรับ การสอบเตรียมสอบ คือ 0.304 สิ่งนี้บ่งชี้ว่า ชั่วโมงเรียน เป็นตัวทำนายผลสอบปลายภาคที่สำคัญ ไม่เหมือน ข้อสอบฝึกหัด

ช่วงความเชื่อมั่นสำหรับการประมาณค่าสัมประสิทธิ์

สองคอลัมน์สุดท้ายของตารางแสดงขอบเขตล่างและบนของช่วงความเชื่อมั่น 95% สำหรับการประมาณค่าสัมประสิทธิ์

ตัวอย่างเช่น การประมาณค่าสัมประสิทธิ์สำหรับ ชั่วโมงเรียน คือ 1.299 แต่มีค่าประมาณนี้มีความไม่แน่นอนอยู่บ้าง เราไม่มีทางรู้แน่ว่านี่คือสัมประสิทธิ์แน่นอนหรือไม่ ดังนั้นช่วงความเชื่อมั่น 95% ทำให้เรามีช่วงค่าที่เป็นไปได้สำหรับสัมประสิทธิ์ที่แท้จริง

ในกรณีนี้ ช่วงความเชื่อมั่น 95% สำหรับ ชั่วโมงการศึกษา คือ (0.356, 2.24) โปรดทราบว่าช่วงความเชื่อมั่นนี้ไม่มีตัวเลข “0” ซึ่งหมายความว่าเรามั่นใจอย่างยิ่งว่าค่าที่แท้จริงของสัมประสิทธิ์ ชั่วโมงเรียนนั้น ไม่เป็นศูนย์ กล่าวคือ เป็นจำนวนบวก

ในทางตรงกันข้าม ช่วงความเชื่อมั่น 95% สำหรับ การสอบเตรียมสอบ คือ (-1.201, 3.436) โปรดทราบว่าช่วงความเชื่อมั่นนี้ ประกอบด้วย ตัวเลข “0” ซึ่งหมายความว่าค่าที่แท้จริงของสัมประสิทธิ์ของ การสอบเตรียมสอบ อาจเป็นศูนย์ กล่าวคือ ไม่มีนัยสำคัญในการทำนายผลการสอบปลายภาค

แหล่งข้อมูลเพิ่มเติม

ทำความเข้าใจสมมติฐานว่างสำหรับการถดถอยเชิงเส้น
ทำความเข้าใจการทดสอบ F สำหรับความสำคัญโดยรวมในการถดถอย
วิธีการรายงานผลการถดถอย

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *