รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย


การถดถอยเชิงเส้นอย่างง่าย เป็นวิธีการทางสถิติที่คุณสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว นั่นคือ x และ y

ตัวแปร x เรียกว่า ตัวแปรทำนาย

ตัวแปรอื่น y เรียกว่า ตัวแปรตอบสนอง

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีน้ำหนักและส่วนสูงเท่ากับบุคคล 7 คน:

การถดถอยเชิงเส้นอย่างง่าย

ให้ น้ำหนัก เป็นตัวแปรทำนาย และให้ ความสูง เป็นตัวแปรตอบสนอง

หากเราสร้างกราฟตัวแปรทั้งสองนี้โดยใช้แผนภาพกระจาย โดยมีน้ำหนักบนแกน x และความสูงบนแกน y จะได้หน้าตาดังนี้:

พล็อตกระจายการถดถอยเชิงเส้น

สมมติว่าเราต้องการเข้าใจความสัมพันธ์ระหว่างน้ำหนักและส่วนสูง จากแผนภาพกระจาย เราจะเห็นได้อย่างชัดเจนว่าเมื่อน้ำหนักเพิ่มขึ้น ความสูงก็มีแนวโน้มที่จะเพิ่มขึ้นด้วย แต่ใน การหาความ สัมพันธ์ระหว่างน้ำหนักและส่วนสูงจริงๆ เราจำเป็นต้องใช้การถดถอยเชิงเส้น

เมื่อใช้การถดถอยเชิงเส้น เราสามารถค้นหาเส้นที่ “เหมาะสม” กับข้อมูลของเราได้ดีที่สุด เส้นนี้เรียกว่า เส้นถดถอยกำลังสองน้อยที่สุด และสามารถใช้เพื่อช่วยให้เราเข้าใจความสัมพันธ์ระหว่างน้ำหนักและส่วนสูง

โดยปกติ คุณจะใช้ซอฟต์แวร์เช่น Microsoft Excel, SPSS หรือเครื่องคิดเลขกราฟเพื่อค้นหาสมการของเส้นนี้

สูตรสำหรับบรรทัดที่เหมาะสมที่สุดเขียนไว้:

ŷ = ข 0 + ข 1 x

โดยที่ ŷ คือค่าทำนายของตัวแปรตอบสนอง b 0 คือจุดตัด b 1 คือสัมประสิทธิ์การถดถอย และ x คือค่าของตัวแปรทำนาย

ที่เกี่ยวข้อง: 4 ตัวอย่างการใช้การถดถอยเชิงเส้นในชีวิตจริง

ค้นหา “สายที่เหมาะสมที่สุด”

สำหรับตัวอย่างนี้ เราสามารถเสียบข้อมูลของเราเข้ากับ เครื่องคำนวณการถดถอยเชิงเส้นทางสถิติ แล้วกด Calculate :

การคำนวณสมการถดถอยเชิงเส้น

เครื่องคิดเลขจะค้นหา เส้นถดถอยกำลังสองน้อยที่สุด โดยอัตโนมัติ:

ŷ = 32.7830 + 0.2001x

หากเราซูมออกจากแผนภาพกระจายก่อนหน้าของเรา และเพิ่มเส้นนี้ลงในกราฟ หน้าตาจะเป็นอย่างไร:

สังเกตว่าจุดข้อมูลของเรากระจัดกระจายอยู่ใกล้เส้นนี้อย่างไร อันที่จริง เส้นการถดถอยกำลังสองน้อยที่สุดนี้เป็นเส้นที่เหมาะสมที่สุดกับข้อมูลของเรา ในบรรดาเส้นที่เป็นไปได้ทั้งหมดที่เราสามารถวาดได้

วิธีตีความเส้นถดถอยกำลังสองน้อยที่สุด

ต่อไปนี้คือวิธีตีความเส้นถดถอยกำลังสองน้อยที่สุด: ŷ = 32.7830 + 0.2001x

ข0 = 32.7830 . ซึ่งหมายความว่าเมื่อ น้ำหนัก ตัวแปรทำนายเป็นศูนย์ปอนด์ ความสูงที่คาดการณ์คือ 32.7830 นิ้ว บางครั้งค่าของ b 0 อาจเป็นประโยชน์ที่จะรู้ แต่ในตัวอย่างนี้ มันไม่สมเหตุสมผลเลยที่จะตีความ b 0 เนื่องจากบุคคลไม่สามารถมีน้ำหนักเป็นศูนย์ปอนด์ได้

ข1 = 0.2001 . ซึ่งหมายความว่าการเพิ่ม x หนึ่งหน่วยสัมพันธ์กับการเพิ่มขึ้น 0.2001 หน่วยใน y ในกรณีนี้ น้ำหนักที่เพิ่มขึ้นหนึ่งปอนด์สัมพันธ์กับความสูงที่เพิ่มขึ้น 0.2001 นิ้ว

วิธีใช้เส้นถดถอยกำลังสองน้อยที่สุด

การใช้เส้นถดถอยกำลังสองน้อยที่สุดนี้ เราสามารถตอบคำถามต่างๆ เช่น:

สำหรับคนที่หนัก 170 ปอนด์ เราควรคาดหวังให้เขาสูงแค่ไหน?

เพื่อตอบคำถามนี้ เราสามารถแทรก 170 ลงในเส้นการถดถอยสำหรับ x แล้วแก้หา y:

ŷ = 32.7830 + 0.2001(170) = 66.8 นิ้ว

สำหรับคนที่หนัก 150 ปอนด์ เราควรคาดหวังให้เขาสูงแค่ไหน?

เพื่อตอบคำถามนี้ เราสามารถแทรก 150 ลงในเส้นการถดถอยสำหรับ x และแก้หา y:

ŷ = 32.7830 + 0.2001(150) = 62.798 นิ้ว

ข้อควรระวัง: เมื่อใช้สมการถดถอยตอบคำถามลักษณะนี้ ต้องแน่ใจว่าใช้เฉพาะค่าสำหรับตัวแปรทำนายที่อยู่ในช่วงของตัวแปรทำนายในชุดข้อมูลเท่านั้น จุดกำเนิดที่เราใช้สร้างเส้นถดถอยกำลังสองน้อยที่สุด ตัวอย่างเช่น น้ำหนักในชุดข้อมูลของเราอยู่ระหว่าง 140 ถึง 212 ปอนด์ ดังนั้นจึงสมเหตุสมผลที่จะตอบคำถามเกี่ยวกับส่วนสูงที่คาดหวังเมื่อน้ำหนักอยู่ระหว่าง 140 ถึง 212 ปอนด์

ค่าสัมประสิทธิ์การตัดสินใจ

วิธีหนึ่งในการวัดว่าเส้นการถดถอยกำลังสองน้อยที่สุด “พอดี” กับข้อมูลได้ดีเพียงใด คือการใช้ สัมประสิทธิ์การกำหนด ซึ่งแสดงแทน R 2

ค่าสัมประสิทธิ์การกำหนดคือสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนาย

ค่าสัมประสิทธิ์การกำหนดอาจแตกต่างกันไปตั้งแต่ 0 ถึง 1 ค่า 0 บ่งชี้ว่าตัวแปรการตอบสนองไม่สามารถอธิบายได้ด้วยตัวแปรทำนายเลย ค่า 1 บ่งชี้ว่าตัวแปรตัวทำนายสามารถอธิบายตัวแปรตอบสนองได้อย่างสมบูรณ์แบบโดยไม่มีข้อผิดพลาด

R 2 ระหว่าง 0 ถึง 1 บ่งชี้ขอบเขตที่ตัวแปรตอบสนองสามารถอธิบายได้ด้วยตัวแปรทำนาย ตัวอย่างเช่น R 2 ของ 0.2 บ่งชี้ว่า 20% ของความแปรปรวนในตัวแปรตอบสนองสามารถอธิบายได้ด้วยตัวแปรทำนาย R 2 ของ 0.77 บ่งชี้ว่า 77% ของความแปรปรวนในตัวแปรตอบสนองสามารถอธิบายได้ด้วยตัวแปรทำนาย

โปรดทราบว่าในผลลัพธ์ก่อนหน้านี้ เราได้รับ R 2 เป็น 0.9311 ซึ่งบ่งชี้ว่า 93.11% ของความแปรปรวนในความสูงสามารถอธิบายได้ด้วยตัวแปรทำนายน้ำหนัก:

สัมประสิทธิ์การกำหนดในการถดถอยเชิงเส้น

ข้อมูลนี้บอกเราว่าน้ำหนักเป็นตัวบ่งชี้ส่วนสูงได้ดีมาก

สมมติฐานการถดถอยเชิงเส้น

เพื่อให้ผลลัพธ์ของแบบจำลองการถดถอยเชิงเส้นถูกต้องและเชื่อถือได้ เราต้องตรวจสอบว่าเป็นไปตามสมมติฐานสี่ประการต่อไปนี้:

1. ความสัมพันธ์เชิงเส้น: มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระ x และตัวแปรตาม y

2. ความเป็นอิสระ: ส่วนที่เหลือเป็นอิสระ โดยเฉพาะอย่างยิ่งไม่มีความสัมพันธ์ระหว่างข้อมูลตกค้างติดต่อกันในข้อมูลอนุกรมเวลา

3. ความเป็นเนื้อเดียวกัน: สารตกค้างมีความแปรปรวนคงที่ในแต่ละระดับของ x

4. Normality: โมเดลที่เหลือมีการกระจายตามปกติ

หากไม่เป็นไปตามสมมติฐานเหล่านี้ตั้งแต่หนึ่งข้อขึ้นไป ผลลัพธ์ของการถดถอยเชิงเส้นของเราอาจไม่น่าเชื่อถือหรืออาจทำให้เข้าใจผิดได้

โปรดดู บทความนี้ สำหรับคำอธิบายของแต่ละสมมติฐาน วิธีตรวจสอบว่าเป็นไปตามสมมติฐานหรือไม่ และต้องทำอย่างไรหากไม่เป็นไปตามสมมติฐาน

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *