आर में प्रतिगमन रेखा के ढलान के लिए टी-परीक्षण कैसे करें
हम एक सरल रेखीय प्रतिगमन करते हैं, हम निम्नलिखित अनुमानित प्रतिगमन समीकरण के साथ समाप्त होते हैं:
ŷ = बी 0 + बी 1 एक्स
हम आम तौर पर जानना चाहते हैं कि क्या ढलान गुणांक, बी 1 , सांख्यिकीय रूप से महत्वपूर्ण है।
यह निर्धारित करने के लिए कि क्या बी 1 सांख्यिकीय रूप से महत्वपूर्ण है, हम निम्नलिखित परीक्षण आँकड़ों के साथ एक टी-परीक्षण कर सकते हैं:
टी = बी 1 / से(बी 1 )
सोना:
- se(b 1 ) b 1 की मानक त्रुटि को दर्शाता है।
फिर हम पी-मूल्य की गणना कर सकते हैं जो स्वतंत्रता की एन-2 डिग्री के साथ इस परीक्षण आंकड़े से मेल खाता है।
यदि पी-मान एक निश्चित सीमा से कम है (जैसे α = 0.05), तो हम यह निष्कर्ष निकाल सकते हैं कि ढलान गुणांक गैर-शून्य है।
दूसरे शब्दों में, मॉडल में भविष्यवक्ता चर और प्रतिक्रिया चर के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है।
निम्नलिखित उदाहरण दिखाता है कि आर में एक प्रतिगमन रेखा के ढलान के लिए टी-परीक्षण कैसे करें।
उदाहरण: आर में प्रतिगमन रेखा के ढलान के लिए टी-टेस्ट चलाना
मान लीजिए कि हमारे पास आर में निम्नलिखित डेटा फ्रेम है जिसमें एक कक्षा में 12 छात्रों द्वारा अध्ययन किए गए घंटों और अंतिम परीक्षा के अंकों के बारे में जानकारी शामिल है:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8), score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82)) #view data frame df hours score 1 1 65 2 1 67 3 2 78 4 2 75 5 3 73 6 4 84 7 5 80 8 5 76 9 5 89 10 6 91 11 6 83 12 8 82
मान लीजिए कि हम यह निर्धारित करने के लिए एक सरल रैखिक प्रतिगमन मॉडल फिट करना चाहते हैं कि अध्ययन किए गए घंटों और परीक्षा के अंकों के बीच सांख्यिकीय रूप से महत्वपूर्ण संबंध है या नहीं।
हम इस प्रतिगमन मॉडल को फिट करने के लिए R में lm() फ़ंक्शन का उपयोग कर सकते हैं:
#fit simple linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -7,398 -3,926 -1,139 4,972 7,713 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.7685 3.3757 20.075 2.07e-09 *** hours 2.7037 0.7456 3.626 0.00464 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.479 on 10 degrees of freedom Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641
मॉडल परिणामों से, हम देख सकते हैं कि अनुमानित प्रतिगमन समीकरण है:
परीक्षा स्कोर = 67.7685 + 2.7037 (घंटे)
यह जांचने के लिए कि ढलान गुणांक सांख्यिकीय रूप से महत्वपूर्ण है या नहीं, हम टी-परीक्षण आंकड़ों की गणना निम्नानुसार कर सकते हैं:
- टी = बी 1 / से(बी 1 )
- टी = 2.7037 / 0.7456
- टी = 3.626
इस टी-टेस्ट आँकड़े से मेल खाने वाला पी-मान आउटपुट में पीआर(> |t|) नामक कॉलम में प्रदर्शित होता है।
पी-मान 0.00464 निकला।
चूँकि यह पी-मान 0.05 से कम है, हम निष्कर्ष निकालते हैं कि ढलान गुणांक सांख्यिकीय रूप से महत्वपूर्ण है।
दूसरे शब्दों में, अध्ययन किए गए घंटों की संख्या और एक छात्र को परीक्षा में प्राप्त अंतिम ग्रेड के बीच एक सांख्यिकीय रूप से महत्वपूर्ण संबंध है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:
आर में सरल रैखिक प्रतिगमन कैसे करें
आर में मल्टीपल लीनियर रिग्रेशन कैसे करें
आर में प्रतिगमन आउटपुट की व्याख्या कैसे करें