วิธีพิจารณาตัวแปรที่มีนัยสำคัญในแบบจำลองการถดถอย


คำถามหลักข้อหนึ่งที่คุณจะถามตัวเองหลังจากปรับ โมเดลการถดถอยเชิงเส้นพหุคูณ แล้วคือ ตัวแปรใดที่มีนัยสำคัญ

มีสองวิธี ที่คุณไม่ควรใช้ กำหนดความหมายของตัวแปร:

1. ค่าของสัมประสิทธิ์การถดถอย

ค่าสัมประสิทธิ์การถดถอยสำหรับตัวแปรทำนายที่กำหนดจะบอกคุณถึงการเปลี่ยนแปลงโดยเฉลี่ยในตัวแปรตอบสนองที่เกี่ยวข้องกับการเพิ่มขึ้นหนึ่งหน่วยในตัวแปรทำนายนั้น

อย่างไรก็ตาม ตัวแปรทำนายแต่ละตัวในแบบจำลองมักจะวัดในระดับที่แตกต่างกัน ดังนั้นจึงไม่เหมาะสมที่จะเปรียบเทียบค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเพื่อพิจารณาว่าตัวแปรใดที่สำคัญที่สุด

2. ค่า p ของสัมประสิทธิ์การถดถอย

ค่า p ของสัมประสิทธิ์การถดถอยสามารถบอกคุณได้ว่าตัวแปรทำนายที่กำหนดมีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับตัวแปรตอบสนองหรือไม่ แต่ไม่สามารถบอกคุณได้ว่าตัวแปรทำนายที่กำหนดนั้นมีนัยสำคัญในทางปฏิบัติในโลกแห่งความเป็นจริงหรือไม่

ค่า P อาจต่ำเนื่องจากขนาดตัวอย่างขนาดใหญ่หรือความแปรปรวนต่ำ ซึ่งไม่ได้บอกเราว่าตัวแปรทำนายที่กำหนดนั้นมีความหมายในทางปฏิบัติหรือไม่

อย่างไรก็ตาม มีสองวิธี ที่คุณควรใช้ เพื่อกำหนดความหมายของตัวแปร:

1. ค่าสัมประสิทธิ์การถดถอยมาตรฐาน

โดยทั่วไป เมื่อเราทำการถดถอยเชิงเส้นหลายครั้ง ค่าสัมประสิทธิ์การถดถอยที่เกิดขึ้นในเอาต์พุตแบบจำลองจะ ไม่ได้มาตรฐาน ซึ่งหมายความว่าค่าสัมประสิทธิ์การถดถอยจะใช้ข้อมูลดิบเพื่อค้นหาเส้นที่เหมาะสมที่สุด

อย่างไรก็ตาม สามารถ กำหนด ตัวแปรทำนายและตัวแปรตอบสนองแต่ละตัวให้เป็นมาตรฐานได้ (โดยการลบค่าเฉลี่ยของแต่ละตัวแปรออกจากค่าเดิมแล้วหารด้วยค่าเบี่ยงเบนมาตรฐานของตัวแปร) แล้วจึงเรียกใช้การถดถอยซึ่งส่งผลให้ สัมประสิทธิ์การถดถอยที่เป็นมาตรฐาน

ด้วยการกำหนดมาตรฐานตัวแปรแต่ละตัวในแบบจำลอง แต่ละตัวแปรจะถูกวัดในระดับเดียวกัน ดังนั้นจึงเหมาะสมที่จะเปรียบเทียบค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยในผลลัพธ์เพื่อทำความเข้าใจว่าตัวแปรใดมีผลกระทบต่อตัวแปรตอบสนองมากที่สุด

2. ความเชี่ยวชาญเฉพาะด้าน

แม้ว่าค่า p จะสามารถบอกคุณได้ว่ามีผลกระทบที่มีนัยสำคัญทางสถิติระหว่างตัวแปรทำนายที่กำหนดและตัวแปรตอบสนองหรือไม่ แต่ความเชี่ยวชาญในหัวข้อนั้นจำเป็นเพื่อยืนยันว่าตัวแปรทำนายมีความเกี่ยวข้องจริงหรือไม่ และควรรวมไว้ในแบบจำลองจริงหรือไม่

ตัวอย่างต่อไปนี้แสดงวิธีการกำหนดตัวแปรที่มีนัยสำคัญในแบบจำลองการถดถอยในทางปฏิบัติ

ตัวอย่าง: วิธีพิจารณาตัวแปรที่มีนัยสำคัญในแบบจำลองการถดถอย

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีข้อมูลเกี่ยวกับอายุ พื้นที่เป็นตารางฟุต และราคาขายของบ้าน 12 หลัง:

สมมติว่าเราทำการถดถอยเชิงเส้นพหุคูณ โดยใช้ อายุ และ พื้นที่เป็นตารางฟุต เป็นตัวแปรทำนาย และ ราคา เป็นตัวแปรตอบสนอง

เราได้รับผลลัพธ์ดังต่อไปนี้:

ตัวอย่างค่าสัมประสิทธิ์การถดถอยที่ไม่ได้มาตรฐาน

ค่าสัมประสิทธิ์การถดถอยในตารางนี้ ไม่ได้กำหนดมาตรฐาน ซึ่งหมายความว่าค่าสัมประสิทธิ์จะใช้ข้อมูลดิบเพื่อให้พอดีกับแบบจำลองการถดถอยนี้

เมื่อมองแวบแรก ดูเหมือนว่า อายุ จะส่งผลต่อราคาอสังหาริมทรัพย์มากกว่ามาก เนื่องจากค่าสัมประสิทธิ์ในตารางการถดถอยคือ -409.833 เทียบกับเพียง 100.866 สำหรับ ตารางฟุต ตัวแปรตัวทำนาย

อย่างไรก็ตาม ข้อผิดพลาดมาตรฐานนั้นมีขนาดใหญ่กว่าสำหรับอายุมากกว่าสำหรับพื้นที่เป็นตารางฟุต ซึ่งเป็นเหตุผลว่าทำไมค่า p ที่สอดคล้องกันจึงมีขนาดใหญ่สำหรับอายุ (p = 0.520) และมีค่าน้อยสำหรับพื้นที่เป็นตารางฟุต (p = 0.000)

สาเหตุของความแตกต่างอย่างมากในค่าสัมประสิทธิ์การถดถอยนั้นเนื่องมาจากความแตกต่างอย่างมากในระดับของตัวแปรทั้งสอง:

  • ค่าสำหรับ ช่วงอายุ ตั้งแต่ 4 ถึง 44 ปี
  • ค่า พื้นที่เป็นตารางฟุต อยู่ระหว่าง 1,200 ถึง 2,800

สมมติว่าเราทำให้ข้อมูลดิบ เป็นมาตรฐาน แทน:

สร้างมาตรฐานข้อมูลใน Excel

หากเราทำการถดถอยเชิงเส้นพหุคูณโดยใช้ข้อมูลมาตรฐาน เราจะได้ผลลัพธ์การถดถอยดังต่อไปนี้:

ค่าสัมประสิทธิ์การถดถอยมาตรฐาน

ค่าสัมประสิทธิ์การถดถอยในตารางนี้เป็น ค่ามาตรฐาน ซึ่งหมายความว่าค่าสัมประสิทธิ์นี้ใช้ข้อมูลที่เป็นมาตรฐานเพื่อให้พอดีกับโมเดลการถดถอยนี้

วิธีการตีความค่าสัมประสิทธิ์ในตารางมีดังนี้:

  • อายุ ที่เพิ่มขึ้นหนึ่งส่วนเบี่ยงเบนมาตรฐานสัมพันธ์กับราคาบ้านที่ลดลง 0.092 ส่วนเบี่ยงเบนมาตรฐาน โดยสมมติว่าพื้นที่เป็นตารางฟุตคงที่
  • การเพิ่มขึ้น ของค่าเบี่ยงเบนมาตรฐานหนึ่งหน่วยเป็นตารางฟุต สัมพันธ์กับการเพิ่มขึ้นของค่าเบี่ยงเบนมาตรฐาน 0.885 ในราคาบ้าน โดยสมมติว่าอายุคงที่

ตอนนี้เราเห็นแล้วว่าพื้นที่เป็นตารางฟุตมีผลกระทบต่อราคาบ้านมากกว่าอายุมาก

หมายเหตุ : ค่า p สำหรับตัวแปรทำนายแต่ละตัวจะเหมือนกันทุกประการกับค่าในแบบจำลองการถดถอยก่อนหน้า

ในการตัดสินใจเลือกรุ่นสุดท้ายที่จะใช้ ตอนนี้เรารู้แล้วว่า พื้นที่เป็นตารางฟุต มีความสำคัญในการทำนายราคาบ้านมากกว่า อายุของ บ้านมาก

ท้ายที่สุดแล้ว เราจำเป็นต้องใช้ความเชี่ยวชาญในประเด็นนี้เพื่อกำหนดตัวแปรที่จะรวมไว้ในแบบจำลองขั้นสุดท้าย โดยพิจารณาจากความรู้ที่มีอยู่เกี่ยวกับราคาที่อยู่อาศัยและราคาอสังหาริมทรัพย์

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองการถดถอย:

วิธีอ่านและตีความตารางการถดถอย
วิธีการตีความค่าสัมประสิทธิ์การถดถอย
วิธีการตีความค่า P ในการถดถอยเชิงเส้น

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *