ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์จำแนกกำลังสอง


เมื่อเรามีชุดตัวแปรทำนายและเราต้องการจัด ประเภทตัวแปรตอบสนอง เป็นหนึ่งในสองคลาส โดยทั่วไปเราจะใช้ การถดถอยโลจิสติก

อย่างไรก็ตาม เมื่อตัวแปรตอบสนองมีคลาสที่เป็นไปได้มากกว่าสองคลาส โดยทั่วไปเราจะใช้ การวิเคราะห์จำแนกเชิงเส้น ซึ่งมักเรียกว่า LDA

LDA สันนิษฐานว่า (1) การสังเกตในแต่ละคลาสมี การกระจายตามปกติ และ (2) การสังเกตในแต่ละคลาสมีเมทริกซ์ความแปรปรวนร่วมเหมือนกัน เมื่อใช้สมมติฐานเหล่านี้ LDA จะค้นหาค่าต่อไปนี้:

  • μ k : ค่าเฉลี่ยของการสังเกตการฝึกทั้งหมดของคลาส k
  • σ 2 : ค่าเฉลี่ยถ่วงน้ำหนักของความแปรปรวนตัวอย่างสำหรับแต่ละคลาส k
  • π k : สัดส่วนของการสังเกตการฝึกที่อยู่ในคลาส k

จากนั้น LDA จะเสียบตัวเลขเหล่านี้ลงในสูตรต่อไปนี้ และกำหนดการสังเกต X = x แต่ละรายการให้กับคลาสที่สูตรให้ค่ามากที่สุด:

d k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + บันทึก(π k )

LDA มีชื่อเป็น เส้นตรง เนื่องจากค่าที่สร้างโดยฟังก์ชันข้างต้นมาจากผลลัพธ์ของ ฟังก์ชันเชิงเส้น ของ x

ส่วนขยายของการวิเคราะห์จำแนกเชิงเส้นคือ การวิเคราะห์จำแนกกำลังสอง ซึ่งมักเรียกว่า QDA

วิธีการนี้คล้ายกับ LDA และยังถือว่าการสังเกตของแต่ละคลาสมีการกระจายตามปกติ แต่ไม่ได้ถือว่าแต่ละคลาสใช้เมทริกซ์ความแปรปรวนร่วมเดียวกัน แต่ QDA จะถือว่าแต่ละคลาสมีเมทริกซ์ความแปรปรวนร่วมของตัวเอง

กล่าวอีกนัยหนึ่ง ถือว่าการสังเกตคลาส k อยู่ในรูปแบบ X ~ N(μ k , Σ k )

เมื่อใช้สมมติฐานนี้ QDA จะค้นหาค่าต่อไปนี้:

  • μ k : ค่าเฉลี่ยของการสังเกตการฝึกทั้งหมดของคลาส k
  • Σ k : เมทริกซ์ความแปรปรวนร่วมของคลาส k
  • π k : สัดส่วนของการสังเกตการฝึกที่อยู่ในคลาส k

จากนั้น QDA จะเสียบตัวเลขเหล่านี้ลงในสูตรต่อไปนี้ และกำหนดการสังเกต X = x แต่ละรายการให้กับคลาสที่สูตรให้ค่ามากที่สุด:

D k (x) = -1/2*(x-μ k ) T Σ k -1 (x-μ k ) – 1/2*บันทึก|Σ k | + บันทึก( πk )

โปรดทราบว่า QDA มีชื่อเป็นกำลัง สอง เนื่องจากค่าที่สร้างโดยฟังก์ชันข้างต้นมาจากผลลัพธ์ของ ฟังก์ชันกำลังสอง ของ x

LDA กับ QDA: เมื่อใดควรใช้อย่างใดอย่างหนึ่ง

ข้อแตกต่างที่สำคัญระหว่าง LDA และ QDA ก็คือ LDA ถือว่าแต่ละคลาสมีเมทริกซ์ความแปรปรวนร่วมร่วมกัน ทำให้ LDA เป็นลักษณนามที่มีความยืดหยุ่นน้อยกว่า QDA มาก

ซึ่งหมายความว่ามีความแปรปรวนต่ำ กล่าวคือ จะทำงานเหมือนกันกับชุดข้อมูลการฝึกที่แตกต่างกัน ข้อเสียคือหากสมมติฐานที่ว่าคลาส K มีความแปรปรวนร่วมเท่ากันนั้นเป็นเท็จ LDA ก็อาจมี อคติสูง

โดยทั่วไป QDA เป็นที่นิยมมากกว่า LDA ในสถานการณ์ต่อไปนี้:

(1) ชุดฝึกมีขนาดใหญ่

(2) ไม่น่าเป็นไปได้ที่คลาส K จะมีเมทริกซ์ความแปรปรวนร่วมร่วมกัน

เมื่อตรงตามเงื่อนไขเหล่านี้ QDA มีแนวโน้มที่จะทำงานได้ดีขึ้น เนื่องจากมีความยืดหยุ่นมากกว่าและสามารถปรับให้เข้ากับข้อมูลได้ดีขึ้น

วิธีเตรียมข้อมูลสำหรับ QDA

ตรวจสอบให้แน่ใจว่าข้อมูลของคุณตรงตามข้อกำหนดต่อไปนี้ก่อนที่จะใช้แบบจำลอง QDA กับข้อมูล:

1. ตัวแปรตอบสนองเป็นแบบหมวดหมู่ แบบจำลอง QDA ได้รับการออกแบบมาเพื่อใช้สำหรับ ปัญหาการจำแนก ประเภท นั่นคือ เมื่อตัวแปรการตอบสนองสามารถวางลงในคลาสหรือหมวดหมู่ได้

2. การสังเกตในแต่ละชั้นเป็นไปตามการแจกแจงแบบปกติ ขั้นแรกตรวจสอบว่าการแจกแจงค่าในแต่ละคลาสมีการแจกแจงแบบปกติโดยประมาณ ถ้าไม่เช่นนั้น คุณสามารถเลือก แปลงข้อมูลก่อน เพื่อให้การกระจายเป็นปกติมากขึ้นได้

3. คำนึงถึงค่าผิดปกติที่รุนแรง อย่าลืมตรวจสอบค่าผิดปกติที่รุนแรงในชุดข้อมูลก่อนที่จะใช้ LDA โดยทั่วไป คุณสามารถตรวจสอบค่าผิดปกติด้วยสายตาได้เพียงใช้ Box Plot หรือ Scatterplots

QDA ใน R และ Python

บทช่วยสอนต่อไปนี้ให้ตัวอย่างทีละขั้นตอนเกี่ยวกับวิธีการวิเคราะห์จำแนกกำลังสองใน R และ Python:

การวิเคราะห์จำแนกกำลังสองใน R (ทีละขั้นตอน)
การวิเคราะห์จำแนกกำลังสองใน Python (ทีละขั้นตอน)

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *