ช่องว่างที่เหลือคืออะไร? (คำจำกัดความ & #038; ตัวอย่าง)


ความแปรปรวนคงเหลือ (บางครั้งเรียกว่า “ความแปรปรวนที่ไม่สามารถอธิบายได้”) หมายถึงความแปรปรวนในแบบจำลองที่ไม่สามารถอธิบายได้ด้วยตัวแปรแบบจำลอง

ยิ่งความแปรปรวนคงเหลือของแบบจำลองสูงเท่าใด แบบจำลองก็จะยิ่งสามารถอธิบายความแปรผันของข้อมูลได้น้อยลงเท่านั้น

ความแปรปรวนคงเหลือปรากฏในผลลัพธ์ของแบบจำลองทางสถิติที่แตกต่างกันสองแบบ:

1. ANOVA: ใช้เพื่อเปรียบเทียบค่าเฉลี่ยของกลุ่มอิสระตั้งแต่ 3 กลุ่มขึ้นไป

2. การถดถอย: ใช้เพื่อหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปและ ตัวแปรตอบสนอง

ตัวอย่างต่อไปนี้แสดงวิธีตีความความแปรปรวนคงเหลือในแต่ละวิธีเหล่านี้

ความแปรปรวนคงเหลือในแบบจำลอง ANOVA

ทุกครั้งที่เราปรับโมเดล ANOVA (“การวิเคราะห์ความแปรปรวน”) ให้เหมาะสม เราจะได้ตาราง ANOVA ที่มีลักษณะดังนี้:

ความแปรปรวนคงเหลือในแบบจำลอง ANOVA

ค่าความแปรปรวนคงเหลือจากแบบจำลอง ANOVA จะอยู่ในคอลัมน์ SS (“ผลรวมของกำลังสอง”) สำหรับการแปรผัน ภายในกลุ่ม

ค่านี้เรียกอีกอย่างว่า “ผลรวมของข้อผิดพลาดกำลังสอง” และคำนวณโดยใช้สูตรต่อไปนี้:

Σ(X ijX j ) 2

ทอง:

  • Σ : สัญลักษณ์กรีกหมายถึง “ผลรวม”
  • X ij : การสังเกต ครั้งที่ 3 ของกลุ่ม j
  • X j : ค่าเฉลี่ยของกลุ่ม j

ในแบบจำลอง ANOVA ข้างต้น เราจะเห็นว่าความแปรปรวนที่เหลือคือ 1100.6

เพื่อตรวจสอบว่าความแปรปรวนที่เหลือนี้ “สูง” หรือไม่ เราสามารถคำนวณผลรวมเฉลี่ยของกำลังสองสำหรับภายในกลุ่มและผลรวมเฉลี่ยของกำลังสองสำหรับระหว่างกลุ่ม แล้วค้นหาอัตราส่วนระหว่างทั้งสอง ซึ่งให้ค่า F โดยรวมในตาราง ANOVA

  • F = MS เข้า / MS เข้า
  • ฟ = 96.1 / 40.76296
  • เอฟ = 2.357

ค่า F ในตาราง ANOVA ด้านบนคือ 2.357 และค่า p ที่สอดคล้องกันคือ 0.113848 เนื่องจากค่า p นี้ไม่น้อยกว่า α = 0.05 เราจึงไม่มีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานว่าง

ซึ่งหมายความว่าเราไม่มีหลักฐานเพียงพอที่จะบอกว่าความแตกต่างเฉลี่ยระหว่างกลุ่มที่เรากำลังเปรียบเทียบนั้นแตกต่างกันอย่างมีนัยสำคัญ

สิ่งนี้บอกเราว่าความแปรปรวนที่เหลือของแบบจำลอง ANOVA นั้นสูงเมื่อเทียบกับความแปรปรวนที่แบบจำลองสามารถอธิบายได้จริง

ความแปรปรวนคงเหลือในแบบจำลองการถดถอย

ในแบบจำลองการถดถอย ความแปรปรวนที่เหลือถูกกำหนดเป็นผลรวมของกำลังสองของความแตกต่างระหว่างจุดข้อมูลที่คาดการณ์ไว้และจุดข้อมูลที่สังเกตได้

มีการคำนวณดังนี้:

Σ(ŷ ฉันฉัน ) 2

ทอง:

  • Σ : สัญลักษณ์กรีกหมายถึง “ผลรวม”
  • ŷ i : จุดข้อมูลที่คาดการณ์
  • y i : จุดข้อมูลที่สังเกตได้

เมื่อเราพอดีกับแบบจำลองการถดถอย เรามักจะได้รับผลลัพธ์ที่มีลักษณะดังนี้:

ความแปรปรวนคงเหลือในแบบจำลองการถดถอย

ค่าความแปรปรวนคงเหลือจากแบบจำลอง ANOVA สามารถพบได้ในคอลัมน์ SS (“ผลรวมของกำลังสอง”) สำหรับการแปรผันของค่าคงเหลือ

อัตราส่วนของความแปรผันที่เหลือต่อความแปรผันทั้งหมดในแบบจำลองบอกเราถึงเปอร์เซ็นต์ของความแปรผันในตัวแปรตอบสนองที่ตัวแปรทำนายในแบบจำลองไม่สามารถอธิบายได้

ตัวอย่างเช่น ในตารางด้านบน เราจะคำนวณเปอร์เซ็นต์ดังนี้:

  • ความแปรผันที่ไม่สามารถอธิบายได้ = SS Residual / SS Total
  • ความแปรผันที่ไม่สามารถอธิบายได้ = 5.9024 / 174.5
  • ความแปรผันที่ไม่สามารถอธิบายได้ = 0.0338

ค่านี้สามารถคำนวณได้โดยใช้สูตรต่อไปนี้:

  • ความแปรผันที่ไม่สามารถอธิบายได้ = 1 – R 2
  • ความแปรผันที่ไม่สามารถอธิบายได้ = 1 – 0.96617
  • ความแปรผันที่ไม่สามารถอธิบายได้ = 0.0338

ค่า R-squared ของแบบจำลองบอกเราถึงเปอร์เซ็นต์ของการแปรผันในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนาย

ดังนั้น ยิ่งความแปรผันที่ไม่สามารถอธิบายได้ต่ำลง โมเดลก็ยิ่งมีความสามารถมากขึ้นในการใช้ตัวแปรทำนายเพื่ออธิบายความแปรผันในตัวแปรตอบสนอง

แหล่งข้อมูลเพิ่มเติม

ค่า R-กำลังสองที่ดีคืออะไร?
วิธีการคำนวณ R-squared ใน Excel
วิธีการคำนวณ R-squared ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *