पायथन में बूटस्ट्रैपिंग कैसे करें (उदाहरण के साथ)


बूटस्ट्रैपिंग एक ऐसी विधि है जिसका उपयोग किसी आंकड़े के लिए विश्वास अंतराल बनाने के लिए किया जा सकता है जब नमूना आकार छोटा होता है और अंतर्निहित वितरण अज्ञात होता है।

बूटस्ट्रैपिंग की मूल प्रक्रिया इस प्रकार है:

  • किसी दिए गए डेटा सेट से प्रतिस्थापन के साथ k प्रतिकृति नमूने लें।
  • प्रत्येक नमूने के लिए, रुचि के आँकड़े की गणना करें।
  • यह किसी दिए गए आँकड़े के लिए अलग-अलग अनुमान देता है, जिसका उपयोग आप आँकड़ों के लिए विश्वास अंतराल की गणना करने के लिए कर सकते हैं।

पायथन में बूटस्ट्रैप करने का सबसे आसान तरीका SciPy लाइब्रेरी से बूटस्ट्रैप फ़ंक्शन का उपयोग करना है।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।

उदाहरण: पायथन में बूटस्ट्रैपिंग करना

मान लीजिए कि हम पायथन में 15 मानों वाला एक डेटासेट बनाते हैं:

 #define array of data values
data = [7, 9, 10, 10, 12, 14, 15, 16, 16, 17, 19, 20, 21, 21, 23]

माध्यिका मान के लिए 95% बूटस्ट्रैप विश्वास अंतराल की गणना करने के लिए हम निम्नलिखित कोड का उपयोग कर सकते हैं:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. median , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=10.0, high=20.0)

माध्यिका के लिए 95% बूटस्ट्रैप विश्वास अंतराल [10.0, 20.0] निकला।

यहां बताया गया है कि बूस्ट्रैप() फ़ंक्शन ने वास्तव में हुड के नीचे क्या किया:

  • बूटस्ट्रैप() फ़ंक्शन ने प्रतिस्थापन के साथ 9,999 नमूने तैयार किए। (डिफ़ॉल्ट 9999 है लेकिन आप इस संख्या को बदलने के लिए n_resamples तर्क का उपयोग कर सकते हैं)
  • प्रत्येक बूटस्ट्रैप नमूने के लिए, माध्यिका की गणना की गई।
  • प्रत्येक नमूने के औसत मूल्य को सबसे छोटे से सबसे बड़े तक क्रमबद्ध किया गया था और औसत मूल्य 2.5% प्रतिशतक पर था और 97.5% प्रतिशतक का उपयोग 95% विश्वास अंतराल की निचली और ऊपरी सीमा के निर्माण के लिए किया गया था। %.

ध्यान दें कि आप वस्तुतः किसी भी आँकड़े के लिए बूटस्ट्रैप विश्वास अंतराल की गणना कर सकते हैं।

उदाहरण के लिए, हम मानक विचलन के लिए 95% विश्वास अंतराल की गणना करने के लिए बूटस्ट्रैप() फ़ंक्शन में np.median को np.std से बदल सकते हैं:

 from scipy. stats import bootstrap
import numpy as np

#convert array to sequence
data = (data,)

#calculate 95% bootstrapped confidence interval for median
bootstrap_ci = bootstrap(data, np. std , confidence_level= 0.95 ,
                         random_state= 1 , method=' percentile ')

#view 95% boostrapped confidence interval
print ( bootstrap_ci.confidence_interval )

ConfidenceInterval(low=3.3199732261303283, high=5.66478399066117)

मानक विचलन के लिए 95% बूटस्ट्रैप विश्वास अंतराल [3.32, 5.67] निकला।

नोट : इन उदाहरणों के लिए, हम 95% कॉन्फिडेंस अंतराल बनाना चुनते हैं, लेकिन आप एक अलग आकार का कॉन्फिडेंस अंतराल बनाने के लिए Trust_level तर्क का मान बदल सकते हैं।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि अन्य सांख्यिकी सॉफ़्टवेयर में बूटस्ट्रैप कैसे करें:

आर में बूटस्ट्रैप कैसे करें
Excel में बूटस्ट्रैप कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *