การทดสอบ f บางส่วนคืออะไร?
การทดสอบ F บางส่วน ใช้เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่าง แบบจำลองการถดถอย และเวอร์ชันที่ซ้อนกันของแบบจำลองเดียวกันหรือไม่
โมเดล แบบซ้อน เป็นเพียงโมเดลที่ประกอบด้วยชุดย่อยของตัวแปรทำนายในโมเดลการถดถอยโดยรวม
ตัวอย่างเช่น สมมติว่าเรามีแบบจำลองการถดถอยต่อไปนี้ซึ่งมีตัวแปรทำนายสี่ตัว:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
ตัวอย่างของโมเดลที่ซ้อนกันจะเป็นโมเดลต่อไปนี้ซึ่งมีตัวแปรทำนายดั้งเดิมเพียงสองตัวเท่านั้น:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
เพื่อตรวจสอบว่าทั้งสองรุ่นนี้มีความแตกต่างกันอย่างมีนัยสำคัญหรือไม่ เราสามารถทำการทดสอบ F-test บางส่วนได้
การทดสอบ F บางส่วน: พื้นฐาน
การทดสอบ F บางส่วนจะคำนวณสถิติการทดสอบ F ต่อไปนี้:
F = (( RSS ที่ลดลง – RSS เต็ม )/p) / ( RSS เต็ม /nk)
ทอง:
- RSS ที่ลดลง : ผลรวมที่เหลือของกำลังสองของโมเดลรีดิวซ์ (เช่น “ซ้อนกัน”)
- RSS เต็ม : ผลรวมที่เหลือของกำลังสองของแบบจำลองเต็ม
- p: จำนวนตัวทำนายที่ถูกลบออกจากโมเดลเต็ม
- n: จำนวนการสังเกตทั้งหมดในชุดข้อมูล
- k: จำนวนสัมประสิทธิ์ (รวมจุดตัด) ในแบบจำลองเต็ม
โปรดทราบว่าผลรวมที่เหลือของกำลังสองจะน้อยกว่าเสมอสำหรับแบบจำลองเต็ม เนื่องจากการเพิ่มตัวทำนายจะส่งผลให้ข้อผิดพลาดลดลงเสมอ
ดังนั้นการทดสอบ F บางส่วนจะทดสอบว่ากลุ่มตัวทำนายที่คุณลบออกจากแบบจำลองแบบเต็มนั้นมีประโยชน์จริง ๆ หรือไม่ และควรรวมไว้ในแบบจำลองแบบเต็มหรือไม่
การทดสอบนี้ใช้สมมติฐานว่างและทางเลือกต่อไปนี้:
H 0 : ค่าสัมประสิทธิ์ทั้งหมดที่ถอดออกจากแบบจำลองเต็มจะเป็นศูนย์
HA : ค่าสัมประสิทธิ์อย่างน้อยหนึ่งค่าที่ถูกลบออกจากแบบจำลองที่สมบูรณ์นั้นไม่เป็นศูนย์
หากค่า p ที่สอดคล้องกับสถิติการทดสอบ F ต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) เราก็สามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่าค่าสัมประสิทธิ์อย่างน้อยหนึ่งค่าที่ถูกลบออกจากแบบจำลองแบบเต็มนั้นมีนัยสำคัญ
การทดสอบ F บางส่วน: ตัวอย่าง
ในทางปฏิบัติ เราใช้ขั้นตอนต่อไปนี้เพื่อทำการทดสอบ F บางส่วน:
1. ใส่โมเดลการถดถอยแบบเต็มและคำนวณ RSS แบบเต็ม
2. ปรับโมเดลการถดถอยแบบซ้อนและคำนวณ RSS ที่ลดลง
3. ดำเนินการ ANOVA เพื่อเปรียบเทียบแบบจำลองทั้งหมดและแบบจำลองที่ลดลง ซึ่งจะสร้างสถิติ F-test ที่จำเป็นในการเปรียบเทียบแบบจำลอง
ตัวอย่างเช่น โค้ดต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยสองโมเดลต่อไปนี้ใน R โดยใช้ข้อมูลจากชุดข้อมูล mtcars ในตัว:
รุ่นเต็ม: mpg = β 0 + β 1 ใช้ได้ + β 2 คาร์โบไฮเดรต + β 3 hp + β 4 สูบ
รุ่น: mpg = β 0 + β 1 ใช้ได้ + β 2 คาร์โบไฮเดรต
#fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform ANOVA to test for differences in models anova(model_reduced, model_full) Analysis of Variance Table Model 1: mpg ~ available + carb Model 2: mpg ~ disp + carb + hp + cyl Res.Df RSS Df Sum of Sq F Pr(>F) 1 29 254.82 2 27 238.71 2 16.113 0.9113 0.414
จากผลลัพธ์ เราจะเห็นว่าสถิติการทดสอบ F ของ ANOVA เท่ากับ 0.9113 และค่า p ที่สอดคล้องกันคือ 0.414
เนื่องจากค่า p นี้ไม่น้อยกว่า 0.05 เราจึงไม่สามารถปฏิเสธสมมติฐานว่างได้ ซึ่งหมายความว่าเราไม่มีหลักฐานเพียงพอที่จะบอกว่าตัวแปรตัวทำนาย hp หรือ cyl ตัวใดตัวหนึ่งมีนัยสำคัญทางสถิติ
กล่าวอีกนัยหนึ่ง การเพิ่ม hp และ cyl ให้กับโมเดลการถดถอยไม่ได้ช่วยปรับปรุงความพอดีของโมเดลอย่างมีนัยสำคัญ