पायथन में द्विचर विश्लेषण कैसे करें: उदाहरणों के साथ


द्विचर विश्लेषण शब्द का तात्पर्य दो चरों के विश्लेषण से है। आप इसे याद रख सकते हैं क्योंकि उपसर्ग “द्वि” का अर्थ “दो” है।

द्विचर विश्लेषण का लक्ष्य दो चरों के बीच संबंध को समझना है

द्विचर विश्लेषण करने के तीन सामान्य तरीके हैं:

1. बिंदु बादल

2. सहसंबंध गुणांक

3. सरल रेखीय प्रतिगमन

निम्नलिखित उदाहरण दिखाता है कि निम्नलिखित पांडा डेटाफ़्रेम का उपयोग करके पायथन में इस प्रकार के प्रत्येक द्विचर विश्लेषण को कैसे निष्पादित किया जाए जिसमें दो चर के बारे में जानकारी शामिल है: (1) अध्ययन में बिताए गए घंटे और (2) 20 अलग-अलग छात्रों द्वारा प्राप्त परीक्षा स्कोर:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' hours ': [1, 1, 1, 2, 2, 2, 3, 3, 3, 3,
                             3, 4, 4, 5, 5, 6, 6, 6, 7, 8],
                   ' score ': [75, 66, 68, 74, 78, 72, 85, 82, 90, 82,
                             80, 88, 85, 90, 92, 94, 94, 88, 91, 96]})

#view first five rows of DataFrame
df. head ()

	hours score
0 1 75
1 1 66
2 1 68
3 2 74
4 2 78

1. बिंदु बादल

हम अध्ययन किए गए घंटों बनाम परीक्षा परिणामों का स्कैटरप्लॉट बनाने के लिए निम्नलिखित वाक्यविन्यास का उपयोग कर सकते हैं:

 import matplotlib. pyplot as plt

#create scatterplot of hours vs. score
plt. scatter (df. hours , df. score )
plt. title (' Hours Studied vs. Exam Score ')
plt. xlabel (' Hours Studied ')
plt. ylabel (' Exam Score ')

x-अक्ष अध्ययन किए गए घंटों को दर्शाता है और y-अक्ष परीक्षा में अर्जित ग्रेड को दर्शाता है।

ग्राफ़ दिखाता है कि दोनों चरों के बीच एक सकारात्मक संबंध है: जैसे-जैसे अध्ययन के घंटों की संख्या बढ़ती है, परीक्षा के अंक भी बढ़ने लगते हैं।

2. सहसंबंध गुणांक

पियर्सन सहसंबंध गुणांक दो चर के बीच रैखिक संबंध को मापने का एक तरीका है।

सहसंबंध मैट्रिक्स बनाने के लिए हम पांडा में corr() फ़ंक्शन का उपयोग कर सकते हैं:

 #create correlation matrix
df. corr ()

	hours score
hours 1.000000 0.891306
score 0.891306 1.000000

सहसंबंध गुणांक 0.891 निकला। यह अध्ययन किए गए घंटों और परीक्षा ग्रेड के बीच एक मजबूत सकारात्मक सहसंबंध को इंगित करता है।

3. सरल रेखीय प्रतिगमन

सरल रेखीय प्रतिगमन एक सांख्यिकीय पद्धति है जिसका उपयोग हम दो चरों के बीच संबंध को मापने के लिए कर सकते हैं।

हम अध्ययन किए गए घंटों और प्राप्त परीक्षा परिणामों के लिए एक सरल रैखिक प्रतिगमन मॉडल को तुरंत फिट करने के लिए स्टैटमॉडल पैकेज से ओएलएस () फ़ंक्शन का उपयोग कर सकते हैं:

 import statsmodels. api as sm

#define response variable
y = df[' score ']

#define explanatory variable
x = df[[' hours ']]

#add constant to predictor variables
x = sm. add_constant (x)

#fit linear regression model
model = sm. OLS (y,x). fit ()

#view model summary
print ( model.summary ())

                            OLS Regression Results                            
==================================================== ============================
Dept. Variable: R-squared score: 0.794
Model: OLS Adj. R-squared: 0.783
Method: Least Squares F-statistic: 69.56
Date: Mon, 22 Nov 2021 Prob (F-statistic): 1.35e-07
Time: 16:15:52 Log-Likelihood: -55,886
No. Observations: 20 AIC: 115.8
Df Residuals: 18 BIC: 117.8
Model: 1                                         
Covariance Type: non-robust                                         
==================================================== ============================
                 coef std err t P>|t| [0.025 0.975]
-------------------------------------------------- ----------------------------
const 69.0734 1.965 35.149 0.000 64.945 73.202
hours 3.8471 0.461 8.340 0.000 2.878 4.816
==================================================== ============================
Omnibus: 0.171 Durbin-Watson: 1.404
Prob(Omnibus): 0.918 Jarque-Bera (JB): 0.177
Skew: 0.165 Prob(JB): 0.915
Kurtosis: 2.679 Cond. No. 9.37
==================================================== ============================

फिट किया गया प्रतिगमन समीकरण इस प्रकार है:

परीक्षा स्कोर = 69.0734 + 3.8471*(अध्ययन के घंटे)

यह हमें बताता है कि अध्ययन किया गया प्रत्येक अतिरिक्त घंटा परीक्षा स्कोर में औसतन 3.8471 की वृद्धि से जुड़ा है।

हम अध्ययन किए गए घंटों की कुल संख्या के आधार पर एक छात्र को प्राप्त होने वाले स्कोर की भविष्यवाणी करने के लिए फिट किए गए प्रतिगमन समीकरण का भी उपयोग कर सकते हैं।

उदाहरण के लिए, एक छात्र जो 3 घंटे पढ़ाई करता है उसे 81.6147 का स्कोर मिलना चाहिए:

  • परीक्षा स्कोर = 69.0734 + 3.8471*(अध्ययन के घंटे)
  • परीक्षा स्कोर = 69.0734 + 3.8471*(3)
  • परीक्षा परिणाम = 81.6147

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल द्विचर विश्लेषण के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

द्विचर विश्लेषण का एक परिचय
वास्तविक जीवन में द्विचर डेटा के 5 उदाहरण
सरल रेखीय प्रतिगमन का एक परिचय
पियर्सन सहसंबंध गुणांक का एक परिचय

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *