คำแนะนำง่ายๆ เพื่อทำความเข้าใจการทดสอบ f ของความสำคัญโดยรวมในการถดถอย
บทช่วยสอนนี้จะอธิบายวิธีระบุสถิติ F ในผลลัพธ์ของตารางการถดถอย รวมถึงวิธีตีความสถิตินี้และค่า p ที่สอดคล้องกัน
การทำความเข้าใจการทดสอบ F ความสำคัญโดยรวม
การทดสอบ F สำหรับนัยสำคัญโดยรวม ในการถดถอยคือการทดสอบเพื่อพิจารณาว่าแบบจำลองการถดถอยเชิงเส้นของคุณมีความเหมาะสมกับชุดข้อมูลมากกว่าแบบจำลองที่ไม่มีตัวแปรทำนายหรือไม่
การทดสอบ F ที่มีนัยสำคัญโดยรวมขึ้นอยู่กับสมมติฐานสองประการต่อไปนี้:
สมมติฐานว่าง ( H0 ): โมเดลที่ไม่มีตัวแปรทำนาย (หรือที่เรียกว่า โมเดลแบบสกัดกั้นเท่านั้น ) เหมาะกับข้อมูลและโมเดลการถดถอยของคุณ
สมมติฐานทางเลือก ( HA ): ตัวแบบการถดถอยของคุณเหมาะกับข้อมูลได้ดีกว่าตัวแบบดักจับอย่างเดียว
เมื่อคุณใส่โมเดลการถดถอยเข้ากับชุดข้อมูล คุณจะได้รับ ตารางการถดถอย เป็นเอาต์พุต ซึ่งจะบอกสถิติ F พร้อมกับค่า p ที่สอดคล้องกันสำหรับสถิติ F นั้น
หากค่า p น้อยกว่าระดับนัยสำคัญที่คุณเลือก ( ตัวเลือกทั่วไปคือ 0.01, 0.05 และ 0.10 ) แสดงว่าคุณมีหลักฐานเพียงพอที่จะสรุปว่าแบบจำลองการถดถอยของคุณเหมาะสมกับข้อมูลตามแบบจำลองดั้งเดิมเท่านั้น แบบอย่าง.
ตัวอย่าง: การทดสอบ F ในการถดถอย
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งแสดงจำนวนชั่วโมงเรียนทั้งหมด จำนวนการสอบเตรียมสอบทั้งหมด และเกรดสอบปลายภาคของนักเรียน 12 คน:
เพื่อวิเคราะห์ความสัมพันธ์ระหว่างชั่วโมงเรียนและการสอบเตรียมสอบกับเกรดการสอบปลายภาคที่นักเรียนได้รับ เราจะทำการถดถอยเชิงเส้นพหุคูณโดย ใช้ ชั่วโมงเรียน และการสอบ เตรียม สอบเป็นตัวแปรทำนาย และ เกรดสุดท้ายภายใต้การสอบ เป็นตัวแปรตอบสนอง
เราได้รับผลลัพธ์ดังต่อไปนี้:
จากผลลัพธ์เหล่านี้ เราจะมุ่งเน้นไปที่สถิติ F ที่ระบุในตาราง ANOVA รวมถึงค่า p ของสถิติ F นี้ ซึ่งมีป้ายกำกับเป็น F Significance ในตาราง เราจะเลือก 0.05 เป็นระดับนัยสำคัญ
สถิติ F: 5.090515
ค่า P: 0.0332
หมายเหตุทางเทคนิค: สถิติ F คำนวณจากการถดถอยของ MS หารด้วยค่าคงเหลือของ MS ในกรณีนี้ การถดถอย MS / MS คงเหลือ = 273.2665 / 53.68151 = 5.090515
เนื่องจากค่า p ต่ำกว่าระดับนัยสำคัญ เราจึงสามารถสรุปได้ว่าแบบจำลองการถดถอยของเราเหมาะกับข้อมูลได้ดีกว่าแบบจำลองแบบสกัดกั้นเท่านั้น
ในบริบทของปัญหาเฉพาะนี้ หมายความว่าการใช้ตัวแปร ทำนายชั่วโมงเรียน และ การสอบเตรียมสอบ ในแบบจำลองช่วยให้เราปรับข้อมูลให้เหมาะสมได้ดีกว่าการละเลยและใช้โมเดลสกัดกั้นเพียงอย่างเดียว
หมายเหตุเกี่ยวกับการตีความการทดสอบ F ของความสำคัญโดยรวม
โดยทั่วไป หากไม่มีตัวแปรทำนายที่มีนัยสำคัญทางสถิติ การทดสอบ F โดยรวมก็ไม่มีนัยสำคัญทางสถิติเช่นกัน
อย่างไรก็ตาม ในบางกรณีอาจไม่เป็นเช่นนั้น เนื่องจาก F-test สำหรับการทดสอบนัยสำคัญโดยรวมว่าตัวแปรทำนายทั้งหมดมีนัยสำคัญ ร่วมกัน หรือไม่ ในขณะที่ T-test สำหรับนัยสำคัญสำหรับตัวแปรทำนายแต่ละตัวเพียงทดสอบว่าตัวแปรทำนายแต่ละตัวมีนัยสำคัญหรือไม่ สำคัญ เป็นรายบุคคล
ดังนั้น การทดสอบ F จะกำหนดว่าตัวแปรทำนาย ทั้งหมด มีนัยสำคัญร่วมกันหรือไม่
เป็นไปได้ว่าตัวแปรทำนายแต่ละตัวไม่มีนัยสำคัญ แต่การทดสอบ F บ่งชี้ว่าตัวแปรทำนายทั้งหมดที่รวมกันมีนัยสำคัญร่วมกัน
หมายเหตุทางเทคนิค: โดยทั่วไป ยิ่งคุณมีตัวแปรทำนายในแบบจำลองมากเท่าใด ความน่าจะเป็นที่สถิติ F และค่า p ที่สอดคล้องกันจะมีนัยสำคัญทางสถิติก็จะยิ่งสูงขึ้นเท่านั้น
เมตริกอื่นที่คุณอาจเห็นในผลลัพธ์ของการถดถอยคือ R-squared ซึ่งวัดความแข็งแกร่งของความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายและตัวแปรตอบสนองเป็นอีกค่าหนึ่ง
แม้ว่า R-squared จะทำให้คุณพอเข้าใจได้ว่าตัวแปรทำนายมีความเกี่ยวข้องอย่างมากกับตัวแปรตอบสนองมากเพียงใด แต่ก็ไม่ได้ให้การทดสอบทางสถิติอย่างเป็นทางการสำหรับความสัมพันธ์นี้
ด้วยเหตุนี้ F-Test จึงมีประโยชน์เนื่องจากเป็นการทดสอบทางสถิติอย่างเป็นทางการ นอกจากนี้ หากการทดสอบ F โดยรวมมีนัยสำคัญ คุณสามารถสรุปได้ว่า R-squared ไม่เป็นศูนย์ และความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองนั้นมีนัยสำคัญทางสถิติ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีตีความค่าทั่วไปอื่นๆ ในแบบจำลองการถดถอย:
วิธีอ่านและตีความตารางการถดถอย
ทำความเข้าใจกับข้อผิดพลาดมาตรฐานของการถดถอย
ค่า R-กำลังสองที่ดีคืออะไร?