रेखीय प्रतिगमन

यह आलेख बताता है कि रैखिक प्रतिगमन क्या है और आंकड़ों में इसका उपयोग किस लिए किया जाता है। इसके अतिरिक्त, आप यह देख पाएंगे कि दो प्रकार के रैखिक प्रतिगमन की गणना कैसे की जाती है: सरल रैखिक प्रतिगमन और एकाधिक रैखिक प्रतिगमन।

रैखिक प्रतिगमन क्या है?

रैखिक प्रतिगमन एक सांख्यिकीय मॉडल है जो एक या अधिक स्वतंत्र चर को एक आश्रित चर से जोड़ता है। सीधे शब्दों में कहें तो, रैखिक प्रतिगमन एक ऐसी तकनीक है जिसका उपयोग एक समीकरण खोजने के लिए किया जाता है जो एक या अधिक व्याख्यात्मक चर और एक प्रतिक्रिया चर के बीच संबंध का अनुमान लगाता है।

उदाहरण के लिए, समीकरण y=2+5x 1 -3x 2 +8x 3 एक रैखिक प्रतिगमन मॉडल है क्योंकि यह गणितीय रूप से तीन स्वतंत्र चर (x 1 , x 2 , x 3 ) को एक आश्रित चर (y) से जोड़ता है और, इसके अलावा, चरों के बीच संबंध रैखिक है।

रेखीय प्रतिगमन के प्रकार

रैखिक प्रतिगमन दो प्रकार के होते हैं:

  • सरल रेखीय प्रतिगमन : एक एकल स्वतंत्र चर एक आश्रित चर से जुड़ा होता है। इस प्रकार के रैखिक प्रतिगमन मॉडल के लिए समीकरण y=β 01 x 1 के रूप का है।
  • एकाधिक रैखिक प्रतिगमन : प्रतिगमन मॉडल में कई व्याख्यात्मक चर और एक प्रतिक्रिया चर होते हैं। इसलिए, इस प्रकार के रैखिक प्रतिगमन मॉडल के लिए समीकरण y=β 01 x 12 x 2 …+β m x m के रूप का है।

सरल रेखीय प्रतिगमन

सरल रेखीय प्रतिगमन का उपयोग एक स्वतंत्र चर को दोनों चर से जोड़ने के लिए किया जाता है।

एक सरल रेखीय प्रतिगमन मॉडल का समीकरण एक सीधी रेखा है, इसलिए यह दो गुणांकों से बना है: समीकरण का स्थिरांक (β 0 ) और दो चर (β 1 ) के बीच सहसंबंध गुणांक। इसलिए, एक सरल रैखिक प्रतिगमन मॉडल के लिए समीकरण y=β 01 x है।

y=\beta_0+\beta_1x

सरल रैखिक प्रतिगमन गुणांक की गणना के सूत्र इस प्रकार हैं:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

सोना:

  • \beta_0

    प्रतिगमन रेखा का स्थिरांक है।

  • \beta_1

    प्रतिगमन रेखा का ढलान है.

  • x_i

    डेटा i के स्वतंत्र चर X का मान है।

  • y_i

    डेटा i के आश्रित चर Y का मान है।

  • \overline{x}

    स्वतंत्र चर के मानों का औसत है

  • \overline{y}

    आश्रित चर Y के मानों का औसत है।

एकाधिक रेखीय प्रतिगमन

एकाधिक रेखीय प्रतिगमन मॉडल में, कम से कम दो स्वतंत्र चर शामिल होते हैं। दूसरे शब्दों में, एकाधिक रेखीय प्रतिगमन कई व्याख्यात्मक चर को प्रतिक्रिया चर से रैखिक रूप से जोड़ने की अनुमति देता है।

एकाधिक रैखिक प्रतिगमन मॉडल के लिए समीकरण y=β 01 x 12 x 2 +…+β m x m +ε है।

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

सोना:

  • y

    आश्रित चर है.

  • x_i

    स्वतंत्र चर है i.

  • \beta_0

    बहुरेखीय प्रतिगमन समीकरण का स्थिरांक है।

  • \beta_i

    चर से जुड़ा प्रतिगमन गुणांक है

    x_i

    .

  • \bm{\varepsilon}

    त्रुटि या अवशिष्ट है, यानी देखे गए मूल्य और मॉडल द्वारा अनुमानित मूल्य के बीच का अंतर है।

  • m

    मॉडल में चरों की कुल संख्या है।

तो अगर हमारे पास कुल मिलाकर एक नमूना है

n

अवलोकनों के अनुसार, हम एकाधिक रैखिक प्रतिगमन मॉडल को मैट्रिक्स रूप में प्रस्तुत कर सकते हैं:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

उपरोक्त मैट्रिक्स अभिव्यक्ति को प्रत्येक मैट्रिक्स को एक अक्षर निर्दिष्ट करके फिर से लिखा जा सकता है:

Y=X\beta+\varepsilon

इस प्रकार, न्यूनतम वर्ग मानदंड को लागू करके, हम एकाधिक रैखिक प्रतिगमन मॉडल के गुणांक का अनुमान लगाने के सूत्र पर पहुंच सकते हैं:

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

हालाँकि, इस सूत्र का अनुप्रयोग बहुत श्रमसाध्य और समय लेने वाला है, यही कारण है कि व्यवहार में कंप्यूटर सॉफ़्टवेयर (जैसे मिनीटैब या एक्सेल) का उपयोग करने की अनुशंसा की जाती है जो कई प्रतिगमन मॉडल को अधिक तेज़ी से बनाने की अनुमति देता है।

रैखिक प्रतिगमन धारणाएँ

एक रेखीय प्रतिगमन मॉडल में, मॉडल को वैध होने के लिए निम्नलिखित शर्तों को पूरा करना होगा:

  • स्वतंत्रता : अवशेष एक दूसरे से स्वतंत्र होने चाहिए। मॉडल की स्वतंत्रता सुनिश्चित करने का एक सामान्य तरीका नमूनाकरण प्रक्रिया में यादृच्छिकता जोड़ना है।
  • समरूपता : अवशेषों की भिन्नता में एकरूपता होनी चाहिए, अर्थात अवशेषों की परिवर्तनशीलता स्थिर होनी चाहिए।
  • गैर-बहुसंरेखता : मॉडल में शामिल व्याख्यात्मक चर को एक-दूसरे से नहीं जोड़ा जा सकता है या, कम से कम, उनका संबंध बहुत कमजोर होना चाहिए।
  • सामान्यता : अवशेषों को सामान्य रूप से वितरित किया जाना चाहिए, या दूसरे शब्दों में, उन्हें माध्य 0 के साथ सामान्य वितरण का पालन करना चाहिए।
  • रैखिकता : यह माना जाता है कि प्रतिक्रिया चर और व्याख्यात्मक चर के बीच संबंध रैखिक है।

रैखिक प्रतिगमन किसके लिए प्रयोग किया जाता है?

रैखिक प्रतिगमन के मूल रूप से दो उपयोग होते हैं: रैखिक प्रतिगमन का उपयोग व्याख्यात्मक चर और प्रतिक्रिया चर के बीच संबंध को समझाने के लिए किया जाता है और इसी तरह, रैखिक प्रतिगमन का उपयोग एक नए अवलोकन के लिए आश्रित चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है।

रैखिक प्रतिगमन मॉडल के समीकरण प्राप्त करके, हम जान सकते हैं कि मॉडल में चर के बीच किस प्रकार का संबंध मौजूद है। यदि किसी स्वतंत्र चर का प्रतिगमन गुणांक सकारात्मक है, तो उसके बढ़ने पर आश्रित चर भी बढ़ेगा। जबकि यदि किसी स्वतंत्र चर का प्रतिगमन गुणांक ऋणात्मक है, तो आश्रित चर बढ़ने पर घट जाएगा।

दूसरी ओर, रैखिक प्रतिगमन में गणना किया गया समीकरण भी मूल्य की भविष्यवाणी करने की अनुमति देता है। इस प्रकार, व्याख्यात्मक चर के मूल्यों को मॉडल समीकरण में पेश करके, हम डेटा के एक नए टुकड़े के लिए आश्रित चर के मूल्य की गणना कर सकते हैं।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *