การทดสอบ f บางส่วนคืออะไร?


การทดสอบ F บางส่วน ใช้เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่าง แบบจำลองการถดถอย และเวอร์ชันที่ซ้อนกันของแบบจำลองเดียวกันหรือไม่

โมเดล แบบซ้อน เป็นเพียงโมเดลที่ประกอบด้วยชุดย่อยของตัวแปรทำนายในโมเดลการถดถอยโดยรวม

ตัวอย่างเช่น สมมติว่าเรามีแบบจำลองการถดถอยต่อไปนี้ซึ่งมีตัวแปรทำนายสี่ตัว:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

ตัวอย่างของโมเดลที่ซ้อนกันจะเป็นโมเดลต่อไปนี้ซึ่งมีตัวแปรทำนายดั้งเดิมเพียงสองตัวเท่านั้น:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

เพื่อตรวจสอบว่าทั้งสองรุ่นนี้มีความแตกต่างกันอย่างมีนัยสำคัญหรือไม่ เราสามารถทำการทดสอบ F-test บางส่วนได้

การทดสอบ F บางส่วน: พื้นฐาน

การทดสอบ F บางส่วนจะคำนวณสถิติการทดสอบ F ต่อไปนี้:

F = (( RSS ที่ลดลง – RSS เต็ม )/p) / ( RSS เต็ม /nk)

ทอง:

  • RSS ที่ลดลง : ผลรวมที่เหลือของกำลังสองของโมเดลรีดิวซ์ (เช่น “ซ้อนกัน”)
  • RSS เต็ม : ผลรวมที่เหลือของกำลังสองของแบบจำลองเต็ม
  • p: จำนวนตัวทำนายที่ถูกลบออกจากโมเดลเต็ม
  • n: จำนวนการสังเกตทั้งหมดในชุดข้อมูล
  • k: จำนวนสัมประสิทธิ์ (รวมจุดตัด) ในแบบจำลองเต็ม

โปรดทราบว่าผลรวมที่เหลือของกำลังสองจะน้อยกว่าเสมอสำหรับแบบจำลองเต็ม เนื่องจากการเพิ่มตัวทำนายจะส่งผลให้ข้อผิดพลาดลดลงเสมอ

ดังนั้นการทดสอบ F บางส่วนจะทดสอบว่ากลุ่มตัวทำนายที่คุณลบออกจากแบบจำลองแบบเต็มนั้นมีประโยชน์จริง ๆ หรือไม่ และควรรวมไว้ในแบบจำลองแบบเต็มหรือไม่

การทดสอบนี้ใช้สมมติฐานว่างและทางเลือกต่อไปนี้:

H 0 : ค่าสัมประสิทธิ์ทั้งหมดที่ถอดออกจากแบบจำลองเต็มจะเป็นศูนย์

HA : ค่าสัมประสิทธิ์อย่างน้อยหนึ่งค่าที่ถูกลบออกจากแบบจำลองที่สมบูรณ์นั้นไม่เป็นศูนย์

หากค่า p ที่สอดคล้องกับสถิติการทดสอบ F ต่ำกว่าระดับนัยสำคัญที่กำหนด (เช่น 0.05) เราก็สามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่าค่าสัมประสิทธิ์อย่างน้อยหนึ่งค่าที่ถูกลบออกจากแบบจำลองแบบเต็มนั้นมีนัยสำคัญ

การทดสอบ F บางส่วน: ตัวอย่าง

ในทางปฏิบัติ เราใช้ขั้นตอนต่อไปนี้เพื่อทำการทดสอบ F บางส่วน:

1. ใส่โมเดลการถดถอยแบบเต็มและคำนวณ RSS แบบเต็ม

2. ปรับโมเดลการถดถอยแบบซ้อนและคำนวณ RSS ที่ลดลง

3. ดำเนินการ ANOVA เพื่อเปรียบเทียบแบบจำลองทั้งหมดและแบบจำลองที่ลดลง ซึ่งจะสร้างสถิติ F-test ที่จำเป็นในการเปรียบเทียบแบบจำลอง

ตัวอย่างเช่น โค้ดต่อไปนี้แสดงวิธีปรับโมเดลการถดถอยสองโมเดลต่อไปนี้ใน R โดยใช้ข้อมูลจากชุดข้อมูล mtcars ในตัว:

รุ่นเต็ม: mpg = β 0 + β 1 ใช้ได้ + β 2 คาร์โบไฮเดรต + β 3 hp + β 4 สูบ

รุ่น: mpg = β 0 + β 1 ใช้ได้ + β 2 คาร์โบไฮเดรต

 #fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ available + carb
Model 2: mpg ~ disp + carb + hp + cyl
  Res.Df RSS Df Sum of Sq F Pr(>F)
1 29 254.82                           
2 27 238.71 2 16.113 0.9113 0.414

จากผลลัพธ์ เราจะเห็นว่าสถิติการทดสอบ F ของ ANOVA เท่ากับ 0.9113 และค่า p ที่สอดคล้องกันคือ 0.414

เนื่องจากค่า p นี้ไม่น้อยกว่า 0.05 เราจึงไม่สามารถปฏิเสธสมมติฐานว่างได้ ซึ่งหมายความว่าเราไม่มีหลักฐานเพียงพอที่จะบอกว่าตัวแปรตัวทำนาย hp หรือ cyl ตัวใดตัวหนึ่งมีนัยสำคัญทางสถิติ

กล่าวอีกนัยหนึ่ง การเพิ่ม hp และ cyl ให้กับโมเดลการถดถอยไม่ได้ช่วยปรับปรุงความพอดีของโมเดลอย่างมีนัยสำคัญ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *