पांडाज़ गेट डमीज़ का उपयोग कैसे करें – pd.get_dummies
अक्सर आंकड़ों में जिन डेटासेटों के साथ हम काम करते हैं उनमें श्रेणीबद्ध चर शामिल होते हैं।
ये वेरिएबल हैं जो नाम या लेबल लेते हैं। उदाहरणों में शामिल:
- वैवाहिक स्थिति (“विवाहित”, “एकल”, “तलाकशुदा”)
- धूम्रपान की स्थिति (“धूम्रपान करने वाला”, “धूम्रपान न करने वाला”)
- आँखों का रंग (“नीला”, “हरा”, “हेज़ेल”)
- शिक्षा का स्तर (जैसे “हाई स्कूल”, “स्नातक डिग्री”, “मास्टर डिग्री”)
मशीन लर्निंग एल्गोरिदम (जैसे रैखिक प्रतिगमन , लॉजिस्टिक प्रतिगमन , यादृच्छिक वन , आदि) को ट्यून करते समय, हम अक्सर श्रेणीबद्ध चर को डमी चर में परिवर्तित करते हैं, जो संख्यात्मक चर होते हैं जिनका उपयोग श्रेणीबद्ध डेटा का प्रतिनिधित्व करने के लिए किया जाता है।
उदाहरण के लिए, मान लें कि हमारे पास एक डेटासेट है जिसमें श्रेणीगत चर लिंग है । प्रतिगमन मॉडल में एक भविष्यवक्ता के रूप में इस चर का उपयोग करने के लिए, पहले इसे एक डमी चर में परिवर्तित करना आवश्यक होगा।
इस डमी वेरिएबल को बनाने के लिए, हम 0 का प्रतिनिधित्व करने के लिए एक मान (“पुरुष”) और 1 का प्रतिनिधित्व करने के लिए दूसरा मान (“महिला”) चुन सकते हैं:
पांडा में डमी वेरिएबल कैसे बनाएं
पांडा डेटाफ़्रेम में एक वेरिएबल के लिए डमी बनाने के लिए, हम पांडा.गेट_डमीज़() फ़ंक्शन का उपयोग कर सकते हैं, जो निम्नलिखित मूल सिंटैक्स का उपयोग करता है:
Pandas.get_dummies(डेटा, उपसर्ग=कोई नहीं, कॉलम=कोई नहीं, ड्रॉप_फर्स्ट=गलत)
सोना:
- डेटा : पांडा का नाम डेटाफ़्रेम
- उपसर्ग : नए डमी वेरिएबल कॉलम की शुरुआत में जोड़ने के लिए एक स्ट्रिंग
- कॉलम : डमी वेरिएबल में परिवर्तित करने के लिए कॉलम का नाम
- ड्रॉप_फर्स्ट : पहले डमी वेरिएबल कॉलम को छोड़ना है या नहीं
निम्नलिखित उदाहरण दिखाते हैं कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।
उदाहरण 1: एकल डमी वैरिएबल बनाएं
मान लीजिए हमारे पास निम्नलिखित पांडा डेटाफ़्रेम हैं:
import pandas as pd #createDataFrame df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78], ' age ': [23, 25, 24, 29, 38, 36, 40], ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M']}) #view DataFrame df income age gender 0 45 23 M 1 48 25 F 2 54 24 M 3 57 29 F 4 65 38 F 5 69 36 F 6 78 40 M
हम लिंग को डमी वेरिएबल में बदलने के लिए pd.get_dummies() फ़ंक्शन का उपयोग कर सकते हैं:
#convert gender to dummy variable p.d. get_dummies (df, columns=[' gender '], drop_first= True ) income age gender_M 0 45 23 1 1 48 25 0 2 54 24 1 3 57 29 0 4 65 38 0 5 69 36 0 6 78 40 1
लिंग स्तंभ अब एक डमी वैरिएबल है जहां:
- 0 का मान “महिला” को दर्शाता है
- 1 का मान “पुरुष” को दर्शाता है
उदाहरण 2: एकाधिक डमी वेरिएबल बनाएं
मान लीजिए हमारे पास निम्नलिखित पांडा डेटाफ़्रेम हैं:
import pandas as pd #createDataFrame df = pd. DataFrame ({' income ': [45, 48, 54, 57, 65, 69, 78], ' age ': [23, 25, 24, 29, 38, 36, 40], ' gender ': ['M', 'F', 'M', 'F', 'F', 'F', 'M'], ' college ': ['Y', 'N', 'N', 'N', 'Y', 'Y', 'Y']}) #view DataFrame df income age gender college 0 45 23 M Y 1 48 25 F N 2 54 24 M N 3 57 29 F N 4 65 38 F Y 5 69 36 F Y 6 78 40 M Y
हम लिंग और कॉलेज को डमी वेरिएबल में बदलने के लिए pd.get_dummies() फ़ंक्शन का उपयोग कर सकते हैं:
#convert gender to dummy variable p.d. get_dummies (df, columns=[' gender ', ' college '], drop_first= True ) income age gender_M college_Y 0 45 23 1 1 1 48 25 0 0 2 54 24 1 0 3 57 29 0 0 4 65 38 0 1 5 69 36 0 1 6 78 40 1 1
लिंग स्तंभ अब एक डमी वैरिएबल है जहां:
- 0 का मान “महिला” को दर्शाता है
- 1 का मान “पुरुष” को दर्शाता है
और कॉलेज कॉलम अब एक डमी वैरिएबल है जहां:
- 0 का मान “नहीं” विश्वविद्यालय को दर्शाता है
- 1 का मान कॉलेज के लिए “हाँ” दर्शाता है
अतिरिक्त संसाधन
प्रतिगमन विश्लेषण में डमी चर का उपयोग कैसे करें
डमी वेरिएबल ट्रैप क्या है?