ความรู้เบื้องต้นเกี่ยวกับการวิเคราะห์จำแนกกำลังสอง
เมื่อเรามีชุดตัวแปรทำนายและเราต้องการจัด ประเภทตัวแปรตอบสนอง เป็นหนึ่งในสองคลาส โดยทั่วไปเราจะใช้ การถดถอยโลจิสติก
อย่างไรก็ตาม เมื่อตัวแปรตอบสนองมีคลาสที่เป็นไปได้มากกว่าสองคลาส โดยทั่วไปเราจะใช้ การวิเคราะห์จำแนกเชิงเส้น ซึ่งมักเรียกว่า LDA
LDA สันนิษฐานว่า (1) การสังเกตในแต่ละคลาสมี การกระจายตามปกติ และ (2) การสังเกตในแต่ละคลาสมีเมทริกซ์ความแปรปรวนร่วมเหมือนกัน เมื่อใช้สมมติฐานเหล่านี้ LDA จะค้นหาค่าต่อไปนี้:
- μ k : ค่าเฉลี่ยของการสังเกตการฝึกทั้งหมดของคลาส k
- σ 2 : ค่าเฉลี่ยถ่วงน้ำหนักของความแปรปรวนตัวอย่างสำหรับแต่ละคลาส k
- π k : สัดส่วนของการสังเกตการฝึกที่อยู่ในคลาส k
จากนั้น LDA จะเสียบตัวเลขเหล่านี้ลงในสูตรต่อไปนี้ และกำหนดการสังเกต X = x แต่ละรายการให้กับคลาสที่สูตรให้ค่ามากที่สุด:
d k (x) = x * (μ k /σ 2 ) – (μ k 2 /2σ 2 ) + บันทึก(π k )
LDA มีชื่อเป็น เส้นตรง เนื่องจากค่าที่สร้างโดยฟังก์ชันข้างต้นมาจากผลลัพธ์ของ ฟังก์ชันเชิงเส้น ของ x
ส่วนขยายของการวิเคราะห์จำแนกเชิงเส้นคือ การวิเคราะห์จำแนกกำลังสอง ซึ่งมักเรียกว่า QDA
วิธีการนี้คล้ายกับ LDA และยังถือว่าการสังเกตของแต่ละคลาสมีการกระจายตามปกติ แต่ไม่ได้ถือว่าแต่ละคลาสใช้เมทริกซ์ความแปรปรวนร่วมเดียวกัน แต่ QDA จะถือว่าแต่ละคลาสมีเมทริกซ์ความแปรปรวนร่วมของตัวเอง
กล่าวอีกนัยหนึ่ง ถือว่าการสังเกตคลาส k อยู่ในรูปแบบ X ~ N(μ k , Σ k )
เมื่อใช้สมมติฐานนี้ QDA จะค้นหาค่าต่อไปนี้:
- μ k : ค่าเฉลี่ยของการสังเกตการฝึกทั้งหมดของคลาส k
- Σ k : เมทริกซ์ความแปรปรวนร่วมของคลาส k
- π k : สัดส่วนของการสังเกตการฝึกที่อยู่ในคลาส k
จากนั้น QDA จะเสียบตัวเลขเหล่านี้ลงในสูตรต่อไปนี้ และกำหนดการสังเกต X = x แต่ละรายการให้กับคลาสที่สูตรให้ค่ามากที่สุด:
D k (x) = -1/2*(x-μ k ) T Σ k -1 (x-μ k ) – 1/2*บันทึก|Σ k | + บันทึก( πk )
โปรดทราบว่า QDA มีชื่อเป็นกำลัง สอง เนื่องจากค่าที่สร้างโดยฟังก์ชันข้างต้นมาจากผลลัพธ์ของ ฟังก์ชันกำลังสอง ของ x
LDA กับ QDA: เมื่อใดควรใช้อย่างใดอย่างหนึ่ง
ข้อแตกต่างที่สำคัญระหว่าง LDA และ QDA ก็คือ LDA ถือว่าแต่ละคลาสมีเมทริกซ์ความแปรปรวนร่วมร่วมกัน ทำให้ LDA เป็นลักษณนามที่มีความยืดหยุ่นน้อยกว่า QDA มาก
ซึ่งหมายความว่ามีความแปรปรวนต่ำ กล่าวคือ จะทำงานเหมือนกันกับชุดข้อมูลการฝึกที่แตกต่างกัน ข้อเสียคือหากสมมติฐานที่ว่าคลาส K มีความแปรปรวนร่วมเท่ากันนั้นเป็นเท็จ LDA ก็อาจมี อคติสูง
โดยทั่วไป QDA เป็นที่นิยมมากกว่า LDA ในสถานการณ์ต่อไปนี้:
(1) ชุดฝึกมีขนาดใหญ่
(2) ไม่น่าเป็นไปได้ที่คลาส K จะมีเมทริกซ์ความแปรปรวนร่วมร่วมกัน
เมื่อตรงตามเงื่อนไขเหล่านี้ QDA มีแนวโน้มที่จะทำงานได้ดีขึ้น เนื่องจากมีความยืดหยุ่นมากกว่าและสามารถปรับให้เข้ากับข้อมูลได้ดีขึ้น
วิธีเตรียมข้อมูลสำหรับ QDA
ตรวจสอบให้แน่ใจว่าข้อมูลของคุณตรงตามข้อกำหนดต่อไปนี้ก่อนที่จะใช้แบบจำลอง QDA กับข้อมูล:
1. ตัวแปรตอบสนองเป็นแบบหมวดหมู่ แบบจำลอง QDA ได้รับการออกแบบมาเพื่อใช้สำหรับ ปัญหาการจำแนก ประเภท นั่นคือ เมื่อตัวแปรการตอบสนองสามารถวางลงในคลาสหรือหมวดหมู่ได้
2. การสังเกตในแต่ละชั้นเป็นไปตามการแจกแจงแบบปกติ ขั้นแรกตรวจสอบว่าการแจกแจงค่าในแต่ละคลาสมีการแจกแจงแบบปกติโดยประมาณ ถ้าไม่เช่นนั้น คุณสามารถเลือก แปลงข้อมูลก่อน เพื่อให้การกระจายเป็นปกติมากขึ้นได้
3. คำนึงถึงค่าผิดปกติที่รุนแรง อย่าลืมตรวจสอบค่าผิดปกติที่รุนแรงในชุดข้อมูลก่อนที่จะใช้ LDA โดยทั่วไป คุณสามารถตรวจสอบค่าผิดปกติด้วยสายตาได้เพียงใช้ Box Plot หรือ Scatterplots
QDA ใน R และ Python
บทช่วยสอนต่อไปนี้ให้ตัวอย่างทีละขั้นตอนเกี่ยวกับวิธีการวิเคราะห์จำแนกกำลังสองใน R และ Python:
การวิเคราะห์จำแนกกำลังสองใน R (ทีละขั้นตอน)
การวิเคราะห์จำแนกกำลังสองใน Python (ทีละขั้นตอน)