पियर्सन सहसंबंध गुणांक


पियर्सन सहसंबंध गुणांक (जिसे “उत्पाद-क्षण सहसंबंध गुणांक” के रूप में भी जाना जाता है) दो चर X और Y के बीच रैखिक संबंध का एक माप है। इसका मान -1 और 1 के बीच है जहां:

  • -1 दो चरों के बीच पूर्णतः नकारात्मक रैखिक सहसंबंध दर्शाता है
  • 0 दो चरों के बीच कोई रैखिक सहसंबंध नहीं दर्शाता है
  • 1 दो चरों के बीच पूर्णतः सकारात्मक रैखिक सहसंबंध दर्शाता है

पियर्सन सहसंबंध गुणांक ज्ञात करने का सूत्र

डेटा के एक नमूने के लिए पियर्सन सहसंबंध गुणांक, जिसे r दर्शाया गया है, खोजने का सूत्र है ( विकिपीडिया के माध्यम से ):

आपको संभवतः इस सूत्र की गणना हाथ से कभी नहीं करनी पड़ेगी क्योंकि आप इसे करने के लिए सॉफ़्टवेयर का उपयोग कर सकते हैं, लेकिन एक उदाहरण के माध्यम से यह समझना उपयोगी है कि यह सूत्र वास्तव में क्या करता है।

मान लीजिए हमारे पास निम्नलिखित डेटा सेट है:

यदि हम इन जोड़ियों (X, Y) को स्कैटरप्लॉट पर प्लॉट करें, तो यह इस तरह दिखेगा:

स्कैटरप्लॉट पर पियर्सन सहसंबंध का उदाहरण

इस स्कैटरप्लॉट को देखकर, हम देख सकते हैं कि चर X और Y के बीच एक सकारात्मक संबंध है: जैसे-जैसे X बढ़ता है, Y भी बढ़ता जाता है। लेकिन यह निर्धारित करने के लिए कि ये दोनों चर कितने सकारात्मक रूप से जुड़े हुए हैं, हमें पियर्सन सहसंबंध गुणांक खोजने की आवश्यकता है।

आइए केवल सूत्र के अंश पर ध्यान दें:

हमारे डेटासेट में प्रत्येक जोड़ी (X, Y) के लिए, हमें x मान और औसत x मान के बीच अंतर, y मान और औसत y मान के बीच अंतर ढूंढना होगा, और फिर इन दोनों संख्याओं को एक साथ गुणा करना होगा।

उदाहरण के लिए, हमारी पहली जोड़ी (X, Y) (2, 2) है। इस डेटा सेट में x का औसत मान 5 है और इस डेटा सेट में y का औसत मान 7 है। इसलिए इस जोड़ी के x मान और x के औसत मान के बीच का अंतर 2 – 5 = -3 है। इस जोड़ी के y मान और औसत y मान के बीच का अंतर 2 – 7 = -5 है। फिर जब हम इन दोनों संख्याओं को गुणा करते हैं तो हमें -3 * -5 = 15 प्राप्त होता है।

हाथ से पियर्सन सहसंबंध

हमने अभी जो किया उसका एक दृश्य अवलोकन यहां दिया गया है:

पियर्सन सहसंबंध उदाहरण

तो बस प्रत्येक जोड़ी के लिए यह करें:

पियर्सन सहसंबंध उदाहरणस्कैटरप्लॉट पर पियर्सन सहसंबंध का उदाहरण

सूत्र का अंश प्राप्त करने का अंतिम चरण इन सभी मानों को एक साथ जोड़ना है:

15 + 3 +3 + 15 = 36

फिर सूत्र का हर हमें x और y के सभी वर्ग अंतरों का योग ज्ञात करने के लिए कहता है, फिर इन दोनों संख्याओं को एक साथ गुणा करें, फिर वर्गमूल निकालें:

तो सबसे पहले हम x और y के अंतरों के वर्गों का योग ज्ञात करेंगे:

इसके बाद, हम इन दोनों संख्याओं को एक साथ गुणा करेंगे: 20 * 68 = 1,360.

अंत में, हम वर्गमूल लेंगे: √ 1,360 = 36.88

तो हमने पाया कि सूत्र का अंश 36 है और हर 36.88 है। इसका मतलब है कि हमारा पियर्सन सहसंबंध गुणांक r = 36 / 36.88 = 0.976 है

यह संख्या 1 के करीब है, जो दर्शाता है कि हमारे चर एक्स और वाई के बीच एक मजबूत सकारात्मक रैखिक संबंध है। यह उस रिश्ते की पुष्टि करता है जिसे हमने स्कैटरप्लॉट में देखा था।

सहसंबंध देखें

याद रखें कि पियर्सन सहसंबंध गुणांक हमें दो चरों के बीच रैखिक संबंध (सकारात्मक, नकारात्मक, कोई नहीं) के प्रकार के साथ-साथ इस रिश्ते की ताकत (कमजोर, मध्यम, मजबूत) बताता है।

जब हम दो वेरिएबल्स का स्कैटरप्लॉट बनाते हैं, तो हम दो वेरिएबल्स के बीच वास्तविक संबंध देख सकते हैं। यहां कई प्रकार के रैखिक संबंध हैं जिन्हें हम देख सकते हैं:

मजबूत, सकारात्मक संबंध: जैसे-जैसे x-अक्ष पर चर बढ़ता है, y-अक्ष पर चर भी बढ़ता है। बिंदुओं को बारीकी से एकत्रित किया गया है, जो एक मजबूत संबंध का संकेत देता है।

पियर्सन सहसंबंध गुणांक: 0.94

कमजोर और सकारात्मक संबंध: जैसे-जैसे x-अक्ष पर चर बढ़ता है, y-अक्ष पर चर भी बढ़ता है। बिंदु काफी बिखरे हुए हैं, जो कमजोर रिश्ते का संकेत दे रहे हैं।

पियर्सन सहसंबंध गुणांक: 0.44

कोई संबंध नहीं: चरों के बीच कोई स्पष्ट संबंध (सकारात्मक या नकारात्मक) नहीं है।

पियर्सन सहसंबंध गुणांक: 0.03

मजबूत, नकारात्मक संबंध: जैसे-जैसे x-अक्ष पर चर बढ़ता है, y-अक्ष पर चर घटता जाता है। बिंदुओं को कसकर एक साथ पैक किया गया है, जो एक मजबूत रिश्ते का संकेत देता है।

पियर्सन सहसंबंध गुणांक: -0.87

कमजोर और नकारात्मक संबंध: जैसे-जैसे x-अक्ष पर चर बढ़ता है, y-अक्ष पर चर घटता जाता है। बिंदु काफी बिखरे हुए हैं, जो कमजोर रिश्ते का संकेत दे रहे हैं।

पियर्सन सहसंबंध गुणांक:- 0.46

पियर्सन सहसंबंध गुणांक के महत्व का परीक्षण

जब हम डेटा के एक सेट के लिए पियर्सन सहसंबंध गुणांक पाते हैं, तो हम अक्सर एक बड़ी आबादी के डेटा के नमूने के साथ काम कर रहे होते हैं। इसका मतलब यह है कि दो चर के लिए एक गैर-शून्य सहसंबंध खोजना संभव है, भले ही वे वास्तव में समग्र जनसंख्या में असंबद्ध हों।

उदाहरण के लिए, मान लीजिए कि हम संपूर्ण जनसंख्या में प्रत्येक डेटा बिंदु के लिए वेरिएबल X और Y के लिए एक स्कैटरप्लॉट बनाते हैं और यह इस तरह दिखता है:

शून्य सहसंबंध का उदाहरण

यह स्पष्ट है कि ये दोनों चर सहसंबद्ध नहीं हैं। हालाँकि, यह संभव है कि जब हम जनसंख्या से 10 बिंदुओं का नमूना लेते हैं, तो हम निम्नलिखित बिंदुओं को चुनते हैं:

सहसंबंध उदाहरण

हम देख सकते हैं कि अंकों के इस नमूने के लिए पियर्सन सहसंबंध गुणांक 0.93 है, जो जनसंख्या सहसंबंध शून्य होने के बावजूद एक मजबूत सकारात्मक सहसंबंध दर्शाता है।

यह जांचने के लिए कि दो चरों के बीच सहसंबंध सांख्यिकीय रूप से महत्वपूर्ण है या नहीं, हम निम्नलिखित परीक्षण आँकड़े पा सकते हैं:

परीक्षण आँकड़ा टी = आर * √ (एन-2) / (1-आर 2 )

जहां n हमारे नमूने में जोड़े की संख्या है, r पियर्सन सहसंबंध गुणांक है, और T परीक्षण आँकड़ा स्वतंत्रता की n-2 डिग्री के साथ एक वितरण का अनुसरण करता है।

आइए एक उदाहरण की समीक्षा करें कि पियर्सन सहसंबंध गुणांक के महत्व का परीक्षण कैसे करें।

उदाहरण

निम्नलिखित डेटासेट 12 व्यक्तियों की ऊंचाई और वजन दर्शाता है:

नीचे दिया गया स्कैटरप्लॉट इन दो चरों का मान दिखाता है:

सहसंबंध स्कैटरप्लॉट

इन दो चरों के लिए पियर्सन सहसंबंध गुणांक r = 0.836 है।

परीक्षण आँकड़ा टी = 0.836 * √ (12 -2) / (1-0.836 2 ) = 4.804।

हमारे टी वितरण कैलकुलेटर के अनुसार, 10 डिग्री स्वतंत्रता के साथ 4.804 के स्कोर का पी-मान 0.0007 है। चूँकि 0.0007 <0.05, हम यह निष्कर्ष निकाल सकते हैं कि इस उदाहरण में वजन और ऊंचाई के बीच संबंध अल्फा = 0.05 पर सांख्यिकीय रूप से महत्वपूर्ण है।

सावधानियां

हालाँकि पियर्सन सहसंबंध गुणांक हमें यह बताने में उपयोगी हो सकता है कि दो चरों में रैखिक संबंध है या नहीं, हमें पियर्सन सहसंबंध गुणांक की व्याख्या करते समय तीन बातों को ध्यान में रखना होगा:

1. सहसंबंध का अर्थ कार्य-कारण नहीं है। ऐसा इसलिए नहीं है क्योंकि दो चर सहसंबद्ध हैं, इसलिए एक आवश्यक रूप से दूसरे को कम या ज्यादा बार प्रकट होने का कारण बनता है । इसका एक उत्कृष्ट उदाहरण आइसक्रीम की बिक्री और शार्क के हमलों के बीच सकारात्मक संबंध है। जब साल के कुछ निश्चित समय में आइसक्रीम की बिक्री बढ़ती है, तो शार्क के हमले भी बढ़ जाते हैं।

क्या इसका मतलब यह है कि आइसक्रीम खाने से शार्क के हमले होते हैं ? बिल्कुल नहीं! इसका सीधा मतलब यह है कि गर्मियों में बर्फ की खपत और शार्क के हमले बढ़ जाते हैं, क्योंकि गर्मियों में बर्फ अधिक लोकप्रिय होती है और गर्मियों के दौरान अधिक लोग समुद्र में जाते हैं।

2. सहसंबंध बाह्य कारकों के प्रति संवेदनशील होते हैं। अत्यधिक बाह्यता पियर्सन सहसंबंध गुणांक को महत्वपूर्ण रूप से बदल सकती है। नीचे दिए गए उदाहरण पर विचार करें:

सहसंबंध आउटलेर्स का उदाहरण

चर X और Y का पियर्सन सहसंबंध गुणांक 0.00 है। लेकिन कल्पना कीजिए कि हमारे पास डेटासेट में एक बाहरी चीज़ है:

पियर्सन सहसंबंध उदाहरण

हालाँकि, इन दो चरों के लिए पियर्सन सहसंबंध गुणांक 0.878 है। यह एक बाहरी चीज़ सब कुछ बदल देती है। यही कारण है कि, दो चर के लिए सहसंबंध की गणना करते समय, आउटलेर्स की जांच करने के लिए स्कैटरप्लॉट का उपयोग करके चर की कल्पना करना एक अच्छा विचार है।

3. पियर्सन सहसंबंध गुणांक दो चर के बीच गैर-रेखीय संबंधों को कैप्चर नहीं करता है। आइए कल्पना करें कि हमारे पास निम्नलिखित संबंध वाले दो चर हैं:

एक अरैखिक संबंध के लिए सहसंबंध

इन दो चरों के लिए पियर्सन सहसंबंध गुणांक 0.00 है क्योंकि उनका कोई रैखिक संबंध नहीं है। हालाँकि, इन दो चरों का एक गैर-रेखीय संबंध है: y मान केवल x मान का वर्ग है।

पियर्सन सहसंबंध गुणांक का उपयोग करते समय, ध्यान रखें कि आप केवल यह परीक्षण कर रहे हैं कि क्या दो चर रैखिक रूप से संबंधित हैं। भले ही पियर्सन सहसंबंध गुणांक हमें बताता है कि दो चर सहसंबद्ध नहीं हैं, फिर भी उनमें कुछ प्रकार के अरेखीय संबंध हो सकते हैं। यह एक और कारण है कि दो चर के बीच संबंधों का विश्लेषण करते समय एक स्कैटरप्लॉट बनाना उपयोगी होता है: यह आपको एक गैर-रेखीय संबंध का पता लगाने में मदद कर सकता है।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *