रैखिक विभेदक विश्लेषण का परिचय


जब हमारे पास भविष्यवक्ता चर का एक सेट होता है और हम एक प्रतिक्रिया चर को दो वर्गों में से एक में वर्गीकृत करना चाहते हैं, तो हम आम तौर पर लॉजिस्टिक रिग्रेशन का उपयोग करते हैं।

उदाहरण के लिए, हम निम्नलिखित परिदृश्य में लॉजिस्टिक रिग्रेशन का उपयोग कर सकते हैं:

  • हम यह अनुमान लगाने के लिए क्रेडिट स्कोर और बैंक बैलेंस का उपयोग करना चाहते हैं कि कोई ग्राहक ऋण पर चूक करेगा या नहीं। (प्रतिक्रिया चर = “डिफ़ॉल्ट” या “कोई डिफ़ॉल्ट नहीं”)

हालाँकि, जब एक प्रतिक्रिया चर में दो से अधिक संभावित वर्ग होते हैं, तो हम आम तौर पर रैखिक विभेदक विश्लेषण नामक एक विधि का उपयोग करना पसंद करते हैं, जिसे अक्सर एलडीए कहा जाता है।

उदाहरण के लिए, हम निम्नलिखित परिदृश्य में एलडीए का उपयोग कर सकते हैं:

  • हम यह अनुमान लगाने के लिए प्रति गेम अंक और प्रति गेम रिबाउंड का उपयोग करना चाहते हैं कि किसी दिए गए हाई स्कूल बास्केटबॉल खिलाड़ी को तीन स्कूलों में से एक में स्वीकार किया जाएगा: डिवीजन 1, डिवीजन 2, या डिवीजन 3।

यद्यपि एलडीए और लॉजिस्टिक रिग्रेशन मॉडल दोनों का उपयोग वर्गीकरण के लिए किया जाता है, लेकिन यह पता चलता है कि जब कई वर्गों के लिए भविष्यवाणियां करने की बात आती है तो एलडीए लॉजिस्टिक रिग्रेशन की तुलना में अधिक स्थिर होता है और इसलिए जब प्रतिक्रिया चर दो से अधिक ले सकता है तो उपयोग करने के लिए पसंदीदा एल्गोरिदम होता है। कक्षाएं.

एलडीए तब भी सबसे अच्छा काम करता है जब लॉजिस्टिक रिग्रेशन की तुलना में नमूना आकार छोटा होता है, जिससे जब आप बड़े नमूने इकट्ठा करने में असमर्थ होते हैं तो यह एक पसंदीदा तरीका बन जाता है।

एलडीए मॉडल कैसे बनाएं

एलडीए किसी दिए गए डेटासेट पर निम्नलिखित धारणाएँ बनाता है:

(1) प्रत्येक भविष्यवक्ता चर के मान सामान्य रूप से वितरित किए जाते हैं। अर्थात्, यदि हमने किसी दिए गए भविष्यवक्ता के लिए मूल्यों के वितरण की कल्पना करने के लिए एक हिस्टोग्राम बनाया है, तो इसमें मोटे तौर पर “घंटी का आकार” होगा।

(2) प्रत्येक भविष्यवक्ता चर में समान भिन्नता होती है। वास्तविक दुनिया के डेटा में ऐसा लगभग कभी नहीं होता है, यही कारण है कि हम आम तौर पर एलडीए मॉडल को फिट करने से पहले समान माध्य और भिन्नता के लिए प्रत्येक चर को मापते हैं।

एक बार जब ये परिकल्पनाएँ सत्यापित हो जाती हैं, तो एलडीए निम्नलिखित मूल्यों का अनुमान लगाता है:

  • μ k : kवीं कक्षा के सभी प्रशिक्षण अवलोकनों का औसत।
  • σ 2 : प्रत्येक k वर्ग के लिए नमूना भिन्नताओं का भारित औसत।
  • π k : kth वर्ग से संबंधित प्रशिक्षण अवलोकनों का अनुपात।

एलडीए फिर इन नंबरों को निम्नलिखित सूत्र में प्लग करता है और प्रत्येक अवलोकन X = x को उस वर्ग में निर्दिष्ट करता है जिसके लिए सूत्र सबसे बड़ा मान उत्पन्न करता है:

d k (x) = x * (μ k2 ) – (μ k 2 /2σ 2 ) + log(π k )

ध्यान दें कि एलडीए के नाम में रैखिक है क्योंकि उपरोक्त फ़ंक्शन द्वारा उत्पादित मान x के रैखिक कार्यों के परिणाम से आता है।

एलडीए के लिए डेटा कैसे तैयार करें

एलडीए मॉडल लागू करने से पहले सुनिश्चित करें कि आपका डेटा निम्नलिखित आवश्यकताओं को पूरा करता है:

1. प्रतिक्रिया चर श्रेणीबद्ध है । एलडीए मॉडल को वर्गीकरण समस्याओं के लिए उपयोग करने के लिए डिज़ाइन किया गया है, यानी, जहां प्रतिक्रिया चर को कक्षाओं या श्रेणियों में रखा जा सकता है।

2. भविष्यवक्ता चर एक सामान्य वितरण का पालन करते हैं । सबसे पहले, सत्यापित करें कि प्रत्येक भविष्यवक्ता चर लगभग सामान्य रूप से वितरित है। यदि नहीं, तो आप वितरण को अधिक सामान्य बनाने के लिए पहले डेटा को बदलना चुन सकते हैं।

3. प्रत्येक भविष्यवक्ता चर में समान भिन्नता होती है । जैसा कि पहले उल्लेख किया गया है, एलडीए मानता है कि प्रत्येक भविष्यवक्ता चर में समान भिन्नता होती है। चूंकि व्यवहार में ऐसा शायद ही कभी होता है, इसलिए डेटासेट में प्रत्येक चर को इस तरह स्केल करना एक अच्छा विचार है कि इसका माध्य 0 और मानक विचलन 1 हो।

4. अत्यधिक आउटलेर्स का हिसाब रखें। एलडीए लागू करने से पहले डेटासेट में अत्यधिक आउटलेर्स की जांच करना सुनिश्चित करें। आमतौर पर, आप केवल बॉक्स प्लॉट या स्कैटरप्लॉट का उपयोग करके आउटलेर्स की जांच कर सकते हैं।

रैखिक विभेदक विश्लेषण का उपयोग करने के उदाहरण

एलडीए मॉडल वास्तविक जीवन में विभिन्न प्रकार के डोमेन में लागू होते हैं। यहां कुछ उदाहरण दिए गए हैं:

1. विपणन . खुदरा कंपनियाँ अक्सर खरीदारों को कई श्रेणियों में से एक में वर्गीकृत करने के लिए एलडीए का उपयोग करती हैं। उदाहरण के लिए, वे आय , कुल वार्षिक खर्च और घरेलू आकार जैसे भविष्यवक्ता चर का उपयोग करके यह अनुमान लगाने के लिए एक एलडीए मॉडल बना सकते हैं कि कोई खरीदार कम, मध्यम या उच्च खर्च करने वाला होगा या नहीं।

2.चिकित्सा . अस्पताल और चिकित्सा अनुसंधान दल अक्सर यह अनुमान लगाने के लिए एलडीए का उपयोग करते हैं कि क्या असामान्य कोशिकाओं के किसी समूह से हल्की, मध्यम या गंभीर बीमारी होने की संभावना है।

3. उत्पाद विकास . लिंग , वार्षिक आय और समान उत्पादों के उपयोग की आवृत्ति जैसे विभिन्न पूर्वानुमान चर के आधार पर कंपनियां यह अनुमान लगाने के लिए एलडीए मॉडल बना सकती हैं कि कोई निश्चित उपभोक्ता अपने उत्पाद का दैनिक, साप्ताहिक, मासिक या वार्षिक उपयोग करेगा या नहीं।

4. पारिस्थितिकी. आकार , वार्षिक संदूषण और हानि जैसे विभिन्न पूर्वानुमान चर के आधार पर, शोधकर्ता यह अनुमान लगाने के लिए एलडीए मॉडल बना सकते हैं कि किसी दिए गए मूंगा चट्टान का समग्र स्वास्थ्य अच्छा, मध्यम, खराब या खतरे में होगा या नहीं। उम्र .

आर और पायथन में एलडीए

निम्नलिखित ट्यूटोरियल आर और पायथन में रैखिक विभेदक विश्लेषण करने के तरीके पर चरण-दर-चरण उदाहरण प्रदान करते हैं:

आर में रैखिक विभेदक विश्लेषण (चरण दर चरण)
पायथन में रैखिक विभेदक विश्लेषण (चरण दर चरण)

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *