आर में प्रतिगमन रेखा के ढलान के लिए टी-परीक्षण कैसे करें


हम एक सरल रेखीय प्रतिगमन करते हैं, हम निम्नलिखित अनुमानित प्रतिगमन समीकरण के साथ समाप्त होते हैं:

ŷ = बी 0 + बी 1 एक्स

हम आम तौर पर जानना चाहते हैं कि क्या ढलान गुणांक, बी 1 , सांख्यिकीय रूप से महत्वपूर्ण है।

यह निर्धारित करने के लिए कि क्या बी 1 सांख्यिकीय रूप से महत्वपूर्ण है, हम निम्नलिखित परीक्षण आँकड़ों के साथ एक टी-परीक्षण कर सकते हैं:

टी = बी 1 / से(बी 1 )

सोना:

  • se(b 1 ) b 1 की मानक त्रुटि को दर्शाता है।

फिर हम पी-मूल्य की गणना कर सकते हैं जो स्वतंत्रता की एन-2 डिग्री के साथ इस परीक्षण आंकड़े से मेल खाता है।

यदि पी-मान एक निश्चित सीमा से कम है (जैसे α = 0.05), तो हम यह निष्कर्ष निकाल सकते हैं कि ढलान गुणांक गैर-शून्य है।

दूसरे शब्दों में, मॉडल में भविष्यवक्ता चर और प्रतिक्रिया चर के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है।

निम्नलिखित उदाहरण दिखाता है कि आर में एक प्रतिगमन रेखा के ढलान के लिए टी-परीक्षण कैसे करें।

उदाहरण: आर में प्रतिगमन रेखा के ढलान के लिए टी-टेस्ट चलाना

मान लीजिए कि हमारे पास आर में निम्नलिखित डेटा फ्रेम है जिसमें एक कक्षा में 12 छात्रों द्वारा अध्ययन किए गए घंटों और अंतिम परीक्षा के अंकों के बारे में जानकारी शामिल है:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8),
                 score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82))

#view data frame
df

   hours score
1 1 65
2 1 67
3 2 78
4 2 75
5 3 73
6 4 84
7 5 80
8 5 76
9 5 89
10 6 91
11 6 83
12 8 82

मान लीजिए कि हम यह निर्धारित करने के लिए एक सरल रैखिक प्रतिगमन मॉडल फिट करना चाहते हैं कि अध्ययन किए गए घंटों और परीक्षा के अंकों के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं।

हम इस प्रतिगमन मॉडल को फिट करने के लिए R में lm() फ़ंक्शन का उपयोग कर सकते हैं:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view model summary
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-7,398 -3,926 -1,139 4,972 7,713 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 67.7685 3.3757 20.075 2.07e-09 ***
hours 2.7037 0.7456 3.626 0.00464 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.479 on 10 degrees of freedom
Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 
F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641

मॉडल परिणामों से, हम देख सकते हैं कि अनुमानित प्रतिगमन समीकरण है:

परीक्षा स्कोर = 67.7685 + 2.7037 (घंटे)

यह जांचने के लिए कि ढलान गुणांक सांख्यिकीय रूप से महत्वपूर्ण है या नहीं, हम टी-परीक्षण आंकड़ों की गणना निम्नानुसार कर सकते हैं:

  • टी = बी 1 / से(बी 1 )
  • टी = 2.7037 / 0.7456
  • टी = 3.626

इस टी-टेस्ट आँकड़े से मेल खाने वाला पी-मान आउटपुट में पीआर(> |t|) नामक कॉलम में प्रदर्शित होता है।

पी-मान 0.00464 निकला।

चूँकि यह पी-मान 0.05 से कम है, हम निष्कर्ष निकालते हैं कि ढलान गुणांक सांख्यिकीय रूप से महत्वपूर्ण है।

दूसरे शब्दों में, अध्ययन किए गए घंटों की संख्या और एक छात्र को परीक्षा में प्राप्त अंतिम ग्रेड के बीच एक सांख्यिकीय रूप से महत्वपूर्ण संबंध है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:

आर में सरल रैखिक प्रतिगमन कैसे करें
आर में मल्टीपल लीनियर रिग्रेशन कैसे करें
आर में प्रतिगमन आउटपुट की व्याख्या कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *