आर में युग्मित नमूने टी-परीक्षण कैसे करें
युग्मित नमूना टी-परीक्षण एक सांख्यिकीय परीक्षण है जो दो नमूनों के माध्य की तुलना करता है जब एक नमूने के प्रत्येक अवलोकन का दूसरे नमूने के अवलोकन से मिलान किया जा सकता है।
उदाहरण के लिए, मान लें कि हम जानना चाहते हैं कि क्या किसी विशेष पाठ्यक्रम का किसी विशेष परीक्षा में छात्रों के प्रदर्शन पर महत्वपूर्ण प्रभाव पड़ता है। इसका परीक्षण करने के लिए, हम एक कक्षा में 20 छात्रों को प्री-टेस्ट लेने के लिए कहते हैं। फिर, प्रत्येक छात्र दो सप्ताह तक प्रतिदिन अध्ययन कार्यक्रम में भाग लेता है। फिर, छात्र समान कठिनाई की परीक्षा दोबारा देते हैं।
पहले और दूसरे टेस्ट के औसत अंकों के बीच अंतर की तुलना करने के लिए, हम एक युग्मित टी-टेस्ट का उपयोग करते हैं क्योंकि प्रत्येक छात्र के लिए, पहले टेस्ट में उनका स्कोर दूसरे टेस्ट में उनके स्कोर के साथ जुड़ा हो सकता है।
युग्मित टी परीक्षण कैसे करें
युग्मित टी-परीक्षण करने के लिए, हम निम्नलिखित दृष्टिकोण का उपयोग कर सकते हैं:
चरण 1: शून्य और वैकल्पिक परिकल्पनाएँ बताएं।
एच 0 : μ डी = 0
एच ए : μ डी ≠ 0 (दो तरफा)
एच ए : μ डी > 0 (एकतरफा)
एच ए : μ डी < 0 (एकतरफा)
जहाँ μd माध्य अंतर है।
चरण 2: परीक्षण आँकड़ा और संगत पी-मान ज्ञात करें।
माना a = पहले टेस्ट में छात्र का स्कोर और b = दूसरे टेस्ट में छात्र का स्कोर। शून्य परिकल्पना का परीक्षण करने के लिए कि परीक्षण स्कोर के बीच वास्तविक औसत अंतर शून्य है:
- अंकों की प्रत्येक जोड़ी के बीच अंतर की गणना करें (डी आई = बी आई – ए आई )
- माध्य अंतर की गणना करें (डी)
- अंतरों के मानक विचलन की गणना करें
- t आँकड़ा की गणना करें, जो T = d / (s d / √n) है
- स्वतंत्रता की n-1 डिग्री के साथ t-सांख्यिकी के लिए संगत p-मान ज्ञात कीजिए।
चरण 3: महत्व के स्तर के आधार पर शून्य परिकल्पना को अस्वीकार करें या अस्वीकार न करें।
यदि पी-मूल्य चुने गए महत्व स्तर से कम है, तो हम शून्य परिकल्पना को अस्वीकार करते हैं और निष्कर्ष निकालते हैं कि दोनों समूहों के साधनों के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर है। अन्यथा, हम शून्य परिकल्पना को अस्वीकार करने में विफल रहेंगे।
आर में युग्मित टी परीक्षण कैसे करें
R में युग्मित t परीक्षण करने के लिए, हम निम्नलिखित सिंटैक्स के साथ अंतर्निहित फ़ंक्शन t.test() का उपयोग कर सकते हैं:
t.परीक्षण (x, y, युग्मित = सत्य, विकल्प = “दो पक्ष”)
- x,y: दो डिजिटल वेक्टर जिनकी हम तुलना करना चाहते हैं
- युग्मित: एक तार्किक मान जो निर्दिष्ट करता है कि हम युग्मित टी-परीक्षण की गणना करना चाहते हैं
- वैकल्पिक: वैकल्पिक परिकल्पना. इसे “दो तरफा” (डिफ़ॉल्ट), “ऊपर” या “नीचे” पर सेट किया जा सकता है।
निम्नलिखित उदाहरण दिखाता है कि 20 छात्रों के लिए प्री-टेस्ट और पोस्ट-टेस्ट के बीच औसत स्कोर में महत्वपूर्ण अंतर है या नहीं, यह निर्धारित करने के लिए एक युग्मित टी-टेस्ट कैसे करें।
डेटा बनाएं
सबसे पहले, हम डेटासेट बनाएंगे:
#create the dataset data <- data.frame(score = c(85,85, 78, 78, 92, 94, 91, 85, 72, 97, 84, 95, 99, 80, 90, 88, 95, 90, 96, 89, 84, 88, 88, 90, 92, 93, 91, 85, 80, 93, 97, 100, 93, 91, 90, 87, 94, 83, 92, 95), group = c(rep('pre', 20), rep('post', 20))) #view the dataset data #scoregroup #1 85 pre #2 85 pre #3 78 pre #4 78 pre #5 92 pre #6 94 pre #7 91 pre #8 85 pre #9 72 pre #10 97 pre #11 84 pre #12 95 pre #13 99 pre #14 80 pre #15 90 pre #16 88 pre #17 95 pre #18 90 pre #19 96 pre #20 89 pre #21 84 post #22 88 post #23 88 post #24 90 post #25 92 post #26 93 post #27 91 post #28 85 post #29 80 post #30 93 post #31 97 post #32 100 posts #33 93 post #34 91 post #35 90 post #36 87 post #37 94 post #38 83 post #39 92 post #40 95 post
मतभेदों की कल्पना करें
इसके बाद, हम dplyr लाइब्रेरी से ग्रुप_बाय() और सारांश () फ़ंक्शंस का उपयोग करके दो समूहों के सारांश आंकड़ों को देखेंगे:
#load dplyr library
library(dplyr)
#find sample size, mean, and standard deviation for each group
data %>%
group_by (group) %>%
summarize (
count = n(),
mean = mean(score),
sd = sd(score)
)
# A tibble: 2 x 4
# group count mean sd
#
#1 post 20 90.3 4.88
#2 pre 20 88.2 7.24
हम प्री और पोस्ट समूहों के लिए स्कोर के वितरण को प्रदर्शित करने के लिए आर में बॉक्सप्लॉट() फ़ंक्शन का उपयोग करके बॉक्सप्लॉट भी बना सकते हैं:
boxplot (score~group,
data=data,
main="Test Scores by Group",
xlab="Group",
ylab="Score",
col="steelblue",
border="black"
)
सारांश आंकड़ों और बॉक्स प्लॉट से, हम देख सकते हैं कि पोस्ट समूह में औसत स्कोर प्री ग्रुप में औसत स्कोर से थोड़ा अधिक है। हम यह भी देख सकते हैं कि पोस्ट ग्रुप स्कोर में प्री ग्रुप स्कोर की तुलना में कम परिवर्तनशीलता है।
यह पता लगाने के लिए कि क्या इन दोनों समूहों के माध्यों के बीच का अंतर सांख्यिकीय रूप से महत्वपूर्ण है, हम एक युग्मित टी परीक्षण कर सकते हैं।
युग्मित टी-परीक्षण करें
युग्मित टी परीक्षण करने से पहले, हमें यह सत्यापित करने की आवश्यकता है कि अंतरों का वितरण सामान्य रूप से (या लगभग सामान्य रूप से) वितरित है। ऐसा करने के लिए, हम पूर्व और बाद के स्कोर के बीच अंतर के रूप में परिभाषित एक नया वेक्टर बना सकते हैं, और मूल्यों के इस वेक्टर पर सामान्यता के लिए शापिरो-विल्क परीक्षण कर सकते हैं:
#define new vector for difference between post and pre scores differences <- with(data, score[group == "post"] - score[group == "pre"]) #perform shapiro-wilk test for normality on this vector of values shapiro.test(differences) # Shapiro-Wilk normality test # #data: differences #W = 0.92307, p-value = 0.1135 #
परीक्षण का पी-मान 0.1135 है, जो अल्फा = 0.05 से अधिक है। इस प्रकार, हम उस अशक्त परिकल्पना को अस्वीकार करने में विफल रहते हैं कि हमारा डेटा सामान्य रूप से वितरित है। इसका मतलब यह है कि अब हम युग्मित टी-टेस्ट के साथ आगे बढ़ सकते हैं।
युग्मित टी-परीक्षण करने के लिए हम निम्नलिखित कोड का उपयोग कर सकते हैं:
t.test (score~group, data = data, paired = TRUE)
# Paired t-test
#
#data: score by group
#t = 1.588, df = 19, p-value = 0.1288
#alternative hypothesis: true difference in means is not equal to 0
#95 percent confidence interval:
# -0.6837307 4.9837307
#sample estimates:
#mean of the differences
#2.15
परिणाम से हम देख सकते हैं कि:
- टी- परीक्षण आँकड़ा 1.588 है।
- 19 डिग्री स्वतंत्रता (डीएफ) के साथ इस परीक्षण आँकड़े के लिए पी-मान 0.1288 है।
- माध्य अंतर के लिए 95% विश्वास अंतराल (-0.6837, 4.9837) है।
- प्री और पोस्ट ग्रुप के अंकों के बीच औसत अंतर 2.15 है।
इस प्रकार, चूंकि हमारा पी-वैल्यू हमारे महत्व स्तर 0.05 से नीचे है, हम उस शून्य परिकल्पना को अस्वीकार करने में विफल रहेंगे कि दोनों समूहों के पास सांख्यिकीय रूप से महत्वपूर्ण साधन हैं।
दूसरे शब्दों में, हमारे पास यह कहने के लिए पर्याप्त सबूत नहीं हैं कि पूर्व और बाद के समूहों के बीच औसत स्कोर सांख्यिकीय रूप से भिन्न हैं। इसका मतलब यह है कि पाठ्यक्रम का परीक्षण स्कोर पर कोई महत्वपूर्ण प्रभाव नहीं पड़ा।
इसके अतिरिक्त, हमारा 95% विश्वास अंतराल इंगित करता है कि हम “95% आश्वस्त” हैं कि दोनों समूहों के बीच वास्तविक औसत अंतर -0.6837 और 4.9837 के बीच है।
चूँकि मान शून्य इस विश्वास अंतराल के भीतर समाहित है, इसका मतलब है कि शून्य वास्तव में औसत स्कोर के बीच वास्तविक अंतर हो सकता है, यही कारण है कि हम इस मामले में शून्य परिकल्पना को अस्वीकार करने में विफल रहे।