วิธีการตีความค่า p ในการถดถอยเชิงเส้น (พร้อมตัวอย่าง)
ในสถิติ แบบจำลองการถดถอยเชิงเส้นจะใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง
แต่ละครั้งที่คุณทำการวิเคราะห์การถดถอยโดยใช้ซอฟต์แวร์ทางสถิติ คุณจะได้รับตารางการถดถอยที่สรุปผลลัพธ์ของแบบจำลอง
ค่าที่สำคัญที่สุดสองค่าในตารางการถดถอยคือค่าสัมประสิทธิ์การถดถอยและ ค่า p ที่สอดคล้องกัน
ค่า p จะบอกคุณว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติระหว่างตัวแปรทำนายแต่ละตัวและตัวแปรตอบสนองหรือไม่
ตัวอย่างต่อไปนี้แสดงวิธีตีความค่า p ของแบบจำลอง การถดถอยเชิงเส้นพหุคูณ ในทางปฏิบัติ
ตัวอย่าง: การตีความค่า P ในแบบจำลองการถดถอย
สมมติว่าเราต้องการปรับโมเดลการถดถอย โดยใช้ตัวแปรต่อไปนี้:
ตัวแปรทำนาย
- จำนวนชั่วโมงเรียนทั้งหมด (ระหว่าง 0 ถึง 20)
- ว่านักเรียนใช้ติวเตอร์หรือไม่ (ใช่หรือไม่)
ตัวแปรตอบสนอง
- คะแนนสอบ (ระหว่าง 0 ถึง 100)
เราต้องการตรวจสอบความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง เพื่อดูว่าชั่วโมงเรียนและติวมีผลกระทบสำคัญต่อคะแนนสอบจริงหรือไม่
สมมติว่าเราทำการวิเคราะห์การถดถอยและได้ผลลัพธ์ดังต่อไปนี้:
ภาคเรียน | ค่าสัมประสิทธิ์ | มาตรฐานบกพร่อง | สถิติ | ค่า P |
---|---|---|---|---|
สกัดกั้น | 48.56 | 14:32 น. | 3.39 | 0.002 |
ชั่วโมงการศึกษา | 2.03 | 0.67 | 3.03 | 0.009 |
ติวเตอร์ | 8.34 | 5.68 | 1.47 | 0.138 |
ต่อไปนี้เป็นวิธีการตีความผลลัพธ์ของแต่ละคำในแบบจำลอง:
การตีความค่า P สำหรับการสกัดกั้น
คำ ดั้งเดิม ในตารางการถดถอยบอกเราถึงค่าเฉลี่ยที่คาดหวังสำหรับตัวแปรตอบสนอง เมื่อตัวแปรตัวทำนายทั้งหมดมีค่าเท่ากับศูนย์
ในตัวอย่างนี้ ค่าสัมประสิทธิ์การถดถอยสำหรับจุดกำเนิดจะเท่ากับ 48.56 ซึ่งหมายความว่า สำหรับนักเรียน ที่ เรียนแบบ 0 ชั่วโมง คะแนนสอบเฉลี่ยที่คาดหวังคือ 48.56
ค่า p คือ 0.002 ซึ่งบอกเราว่าคำเดิมแตกต่างจากศูนย์ในทางสถิติ
ในทางปฏิบัติ โดยทั่วไปแล้วเราไม่สนใจค่า p ของคำเดิม แม้ว่าค่า p-value จะไม่ต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) เราก็ยังคงรักษาคำดั้งเดิมไว้ในแบบจำลอง
การตีความค่า P สำหรับตัวแปรทำนายต่อเนื่อง
ในตัวอย่างนี้ ชั่วโมงที่ศึกษา เป็นตัวแปรทำนายต่อเนื่องซึ่งมีช่วงตั้งแต่ 0 ถึง 20 ชั่วโมง
จากผลการถดถอยเราจะเห็นว่าค่าสัมประสิทธิ์การถดถอยของชั่วโมงที่ศึกษาคือ 2.03 ซึ่งหมายความว่าโดยเฉลี่ยแล้ว แต่ละชั่วโมงที่ศึกษาเพิ่มเติมจะสัมพันธ์กับคะแนนสอบปลายภาคที่เพิ่มขึ้น 2.03 คะแนน โดยสมมติว่า ตัวแปรติวเตอร์ ตัวทำนายคงที่
ตัวอย่างเช่น ลองพิจารณานักเรียน A ที่เรียน 10 ชั่วโมงและใช้ติวเตอร์ ลองพิจารณานักเรียน B ที่เรียน 11 ชั่วโมงและใช้ติวเตอร์ด้วย จากผลการถดถอยของเรา คาดว่านักเรียน B จะทำคะแนนสอบได้สูงกว่านักเรียน A 2.03 คะแนน
ค่า p ที่สอดคล้องกันคือ 0.009 ซึ่งมีนัยสำคัญทางสถิติที่ระดับอัลฟาที่ 0.05
ข้อมูลนี้บอกเราว่าการเปลี่ยนแปลงคะแนนสอบโดยเฉลี่ยสำหรับแต่ละชั่วโมงที่ศึกษาเพิ่มเติมนั้น แตกต่างจากศูนย์อย่างมีนัยสำคัญทางสถิติ
กล่าวอีกนัยหนึ่ง: ชั่วโมงที่เรียน มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรการตอบกลับ ของคะแนนสอบ
การตีความค่า P สำหรับตัวแปรทำนายเชิงหมวดหมู่
ในตัวอย่างนี้ Tutor เป็นตัวแปรทำนายเชิงหมวดหมู่ที่สามารถรับค่าที่แตกต่างกันได้สองค่า:
- 1 = นักเรียนใช้ติวเตอร์เพื่อเตรียมตัวสอบ
- 0 = นักเรียนไม่ได้ใช้ติวเตอร์เตรียมตัวสอบ
จากผลการถดถอย เราจะเห็นว่าค่าสัมประสิทธิ์การถดถอยของติวเตอร์คือ 8.34 ซึ่งหมายความว่า โดยเฉลี่ยแล้ว นักเรียนที่ใช้ติวเตอร์ทำคะแนนในการสอบได้สูงกว่านักเรียนที่ไม่ได้ใช้ติวเตอร์ 8.34 คะแนน โดยถือว่าตัวแปรชั่วโมงเรียนคงที่
ตัวอย่างเช่น ลองพิจารณานักเรียน A ที่เรียน 10 ชั่วโมงและใช้ติวเตอร์ นอกจากนี้ ให้พิจารณานักเรียน B ที่เรียน 10 ชั่วโมงและไม่ได้ใช้ติวเตอร์ด้วย จากผลการถดถอยของเรา คาดว่านักเรียน A จะมีคะแนนสอบสูงกว่านักเรียน B 8.34 คะแนน
ค่า p ที่สอดคล้องกันคือ 0.138 ซึ่งไม่มีนัยสำคัญทางสถิติที่ระดับอัลฟาที่ 0.05
ข้อมูลนี้บอกเราว่าการเปลี่ยนแปลงโดยเฉลี่ยของคะแนนสอบสำหรับแต่ละชั่วโมงที่ศึกษาเพิ่มเติม ไม่มีความแตกต่างอย่างมีนัยสำคัญทางสถิติจากศูนย์
กล่าวอีกนัยหนึ่ง: ตัวแปรทำนาย ของ Tutor ไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรการตอบกลับ ของคะแนนสอบ
สิ่งนี้บ่งชี้ว่าแม้ว่านักเรียนที่ใช้ติวเตอร์จะสอบได้ดีกว่า แต่ความแตกต่างนี้อาจเนื่องมาจากโอกาส
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับการถดถอยเชิงเส้น:
วิธีตีความการทดสอบ F สำหรับนัยสำคัญโดยรวมในการถดถอย
สมมติฐานห้าประการของการถดถอยเชิงเส้นพหุคูณ
ทำความเข้าใจการทดสอบทีในการถดถอยเชิงเส้น