द्विघात विभेदक विश्लेषण का परिचय


जब हमारे पास भविष्यवक्ता चर का एक सेट होता है और हम एक प्रतिक्रिया चर को दो वर्गों में से एक में वर्गीकृत करना चाहते हैं, तो हम आम तौर पर लॉजिस्टिक रिग्रेशन का उपयोग करते हैं।

हालाँकि, जब एक प्रतिक्रिया चर में दो से अधिक संभावित वर्ग होते हैं, तो हम आम तौर पर रैखिक विभेदक विश्लेषण का उपयोग करते हैं, जिसे अक्सर एलडीए कहा जाता है।

एलडीए मानता है कि (1) प्रत्येक वर्ग में अवलोकन सामान्य रूप से वितरित होते हैं और (2) प्रत्येक वर्ग में अवलोकन समान सहप्रसरण मैट्रिक्स साझा करते हैं। इन मान्यताओं का उपयोग करते हुए, एलडीए निम्नलिखित मान पाता है:

  • μ k : k वीं कक्षा के सभी प्रशिक्षण अवलोकनों का औसत।
  • σ 2 : प्रत्येक k वर्ग के लिए नमूना भिन्नताओं का भारित औसत।
  • π k : k वें वर्ग से संबंधित प्रशिक्षण अवलोकनों का अनुपात।

एलडीए फिर इन नंबरों को निम्नलिखित सूत्र में प्लग करता है और प्रत्येक अवलोकन X = x को उस वर्ग में निर्दिष्ट करता है जिसके लिए सूत्र सबसे बड़ा मान उत्पन्न करता है:

d k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

एलडीए के नाम में रैखिक है क्योंकि उपरोक्त फ़ंक्शन द्वारा उत्पादित मान x के रैखिक कार्यों के परिणाम से आता है।

रैखिक विभेदक विश्लेषण का एक विस्तार द्विघात विभेदक विश्लेषण है, जिसे अक्सर QDA कहा जाता है।

यह विधि एलडीए के समान है और यह भी मानती है कि प्रत्येक वर्ग के अवलोकन सामान्य रूप से वितरित होते हैं, लेकिन यह नहीं मानता है कि प्रत्येक वर्ग समान सहप्रसरण मैट्रिक्स साझा करता है। इसके बजाय, QDA मानता है कि प्रत्येक वर्ग का अपना सहप्रसरण मैट्रिक्स होता है।

दूसरे शब्दों में, यह मानता है कि k वें वर्ग का अवलोकन X ~ N(μ k , Σ k ) रूप का है।

इस धारणा का उपयोग करते हुए, QDA निम्नलिखित मान पाता है:

  • μ k : kवीं कक्षा के सभी प्रशिक्षण अवलोकनों का औसत।
  • Σ k : kवें वर्ग का सहप्रसरण मैट्रिक्स।
  • π k : k वें वर्ग से संबंधित प्रशिक्षण अवलोकनों का अनुपात।

QDA फिर इन नंबरों को निम्नलिखित सूत्र में प्लग करता है और प्रत्येक अवलोकन X = x को उस वर्ग में निर्दिष्ट करता है जिसके लिए सूत्र सबसे बड़ा मान उत्पन्न करता है:

डी के (एक्स) = -1/2*(एक्स-μ के ) टी Σ के -1 (एक्स-μ के ) – 1/2*लॉग|Σ के | + लॉग( πk )

ध्यान दें कि QDA के नाम में द्विघात है क्योंकि उपरोक्त फ़ंक्शन द्वारा उत्पादित मान x के द्विघात कार्यों के परिणाम से आता है।

एलडीए बनाम क्यूडीए: एक या दूसरे का उपयोग कब करें

एलडीए और क्यूडीए के बीच मुख्य अंतर यह है कि एलडीए मानता है कि प्रत्येक वर्ग एक सहप्रसरण मैट्रिक्स साझा करता है, जिससे यह क्यूडीए की तुलना में बहुत कम लचीला क्लासिफायरियर बन जाता है।

इसका स्वाभाविक अर्थ है कि इसमें कम भिन्नता है, यानी यह विभिन्न प्रशिक्षण डेटासेट पर समान प्रदर्शन करेगा। नकारात्मक पक्ष यह है कि यदि यह धारणा गलत है कि K वर्गों में समान सहप्रसरण है, तो LDA उच्च पूर्वाग्रह से पीड़ित हो सकता है।

QDA को आमतौर पर निम्नलिखित स्थितियों में LDA की तुलना में प्राथमिकता दी जाती है:

(1) प्रशिक्षण सेट बड़ा है।

(2) यह संभावना नहीं है कि K वर्ग एक सामान्य सहप्रसरण मैट्रिक्स साझा करें।

जब ये स्थितियाँ पूरी हो जाती हैं, तो QDA बेहतर प्रदर्शन करता है क्योंकि यह अधिक लचीला होता है और डेटा को बेहतर ढंग से अनुकूलित कर सकता है।

QDA के लिए डेटा कैसे तैयार करें

सुनिश्चित करें कि आपका डेटा QDA मॉडल लागू करने से पहले निम्नलिखित आवश्यकताओं को पूरा करता है:

1. प्रतिक्रिया चर श्रेणीबद्ध है । QDA मॉडल को वर्गीकरण समस्याओं के लिए उपयोग करने के लिए डिज़ाइन किया गया है, अर्थात, जब प्रतिक्रिया चर को कक्षाओं या श्रेणियों में रखा जा सकता है।

2. प्रत्येक कक्षा में अवलोकन एक सामान्य वितरण का पालन करते हैं । सबसे पहले, जांचें कि प्रत्येक वर्ग में मूल्यों का वितरण लगभग सामान्य रूप से वितरित है। यदि नहीं, तो आप वितरण को अधिक सामान्य बनाने के लिए पहले डेटा को बदलना चुन सकते हैं।

3. अत्यधिक आउटलेर्स का हिसाब रखें। एलडीए लागू करने से पहले डेटासेट में अत्यधिक आउटलेर्स की जांच करना सुनिश्चित करें। आमतौर पर, आप केवल बॉक्स प्लॉट या स्कैटरप्लॉट का उपयोग करके आउटलेर्स की जांच कर सकते हैं।

आर और पायथन में क्यूडीए

निम्नलिखित ट्यूटोरियल आर और पायथन में द्विघात विभेदक विश्लेषण करने के तरीके पर चरण-दर-चरण उदाहरण प्रदान करते हैं:

आर में द्विघात विभेदक विश्लेषण (चरण दर चरण)
पायथन में द्विघात विभेदक विश्लेषण (चरण दर चरण)

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *