पांडा में समूह द्वारा सहसंबंध की गणना कैसे करें
आप पांडा में समूह द्वारा दो चर के बीच सहसंबंध की गणना करने के लिए निम्नलिखित मूल वाक्यविन्यास का उपयोग कर सकते हैं:
df. groupby (' group_var ')[[' values1 ',' values2 ']]. corr (). unstack (). iloc [:, 1 ]
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस वाक्यविन्यास का उपयोग कैसे करें।
उदाहरण: पांडा में समूह द्वारा सहसंबंध की गणना करें
मान लीजिए हमारे पास निम्नलिखित पांडा डेटाफ़्रेम हैं:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [2, 7, 9, 3, 12, 10, 14, 21]})
#view DataFrame
print (df)
हम टीम द्वारा समूहीकृत अंक और सहायता के बीच सहसंबंध की गणना करने के लिए निम्नलिखित कोड का उपयोग कर सकते हैं:
#calculate correlation between points and assists, grouped by team
df. groupby (' team ')[[' points ',' assists ']]. corr (). unstack (). iloc [:, 1 ]
team
At 0.603053
B 0.981798
Name: (points, assists), dtype: float64
परिणाम से हम देख सकते हैं:
- टीम ए के लिए अंक और सहायता के बीच सहसंबंध गुणांक 0.603053 है।
- टीम बी के लिए अंक और सहायता के बीच सहसंबंध गुणांक 0.981798 है।
चूँकि दोनों सहसंबंध गुणांक सकारात्मक हैं, यह हमें बताता है कि दोनों टीमों के लिए अंक और सहायता के बीच संबंध सकारात्मक है।
अर्थात्, जो खिलाड़ी अधिक अंक अर्जित करते हैं वे अधिक सहायता भी दर्ज करते हैं।
संबंधित: “मजबूत” सहसंबंध क्या माना जाता है?
ध्यान दें कि हम अनस्टैक और आईलोक फ़ंक्शंस का उपयोग न करके सिंटैक्स को छोटा कर सकते हैं, लेकिन परिणाम ख़राब हैं:
df. groupby (' team ')[[' points ',' assists ']]. corr ()
assist points
team
A points 1.000000 0.603053
assists 0.603053 1.000000
B points 1.000000 0.981798
assists 0.981798 1.000000
यह सिंटैक्स दोनों टीमों के लिए एक सहसंबंध मैट्रिक्स तैयार करता है, जो हमें अतिरिक्त जानकारी प्रदान करता है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि पांडा में अन्य सामान्य ऑपरेशन कैसे करें:
पंडों में ग्रुपबाय योग कैसे निष्पादित करें
पंडों में ग्रुपबी और प्लॉट का उपयोग कैसे करें
पांडा में GroupBy का उपयोग करके अद्वितीय मानों की गणना कैसे करें