एनोवा के साथ पोस्ट-हॉक परीक्षण का उपयोग करने के लिए एक गाइड


एनोवा एक सांख्यिकीय परीक्षण है जिसका उपयोग यह निर्धारित करने के लिए किया जाता है कि तीन या अधिक स्वतंत्र समूहों के साधनों के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर है या नहीं।

एनोवा में प्रयुक्त धारणाएँ इस प्रकार हैं:

शून्य परिकल्पना (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (प्रत्येक समूह के लिए साधन समान हैं)

वैकल्पिक परिकल्पना: (हा): कम से कम एक साधन दूसरों से अलग है

यदि एनोवा का पी-मान महत्व स्तर से नीचे है, तो हम शून्य परिकल्पना को अस्वीकार कर सकते हैं और निष्कर्ष निकाल सकते हैं कि हमारे पास यह कहने के लिए पर्याप्त सबूत हैं कि समूह का कम से कम एक साधन दूसरों से अलग है।

हालाँकि, इससे हमें यह नहीं पता चलता कि कौन से समूह एक-दूसरे से भिन्न हैं। यह हमें बस इतना बताता है कि सभी समूहों का औसत समान नहीं है।

यह जानने के लिए कि कौन से समूह एक-दूसरे से भिन्न हैं, हमें एक पोस्ट हॉक टेस्ट (जिसे एकाधिक तुलना परीक्षण भी कहा जाता है) करने की आवश्यकता है, जो हमें परिवार को नियंत्रित करने के साथ-साथ कई समूहों के बीच के अंतर का पता लगाने की अनुमति देगा। . उचित त्रुटि दर.

तकनीकी नोट: यह ध्यान रखना महत्वपूर्ण है कि हमें केवल तभी पोस्ट हॉक परीक्षण करना चाहिए जब एनोवा पी-वैल्यू सांख्यिकीय रूप से महत्वपूर्ण हो। यदि पी-मूल्य सांख्यिकीय रूप से महत्वपूर्ण नहीं है, तो यह इंगित करता है कि सभी समूहों के साधन एक दूसरे से भिन्न नहीं हैं। इसलिए, यह निर्धारित करने के लिए पोस्ट हॉक परीक्षण करने की कोई आवश्यकता नहीं है कि कौन से समूह एक दूसरे से भिन्न हैं।

पारिवारिक त्रुटि दर

जैसा कि पहले उल्लेख किया गया है, पोस्ट हॉक परीक्षण हमें प्रति परिवार त्रुटि दर को नियंत्रित करने के साथ-साथ कई समूहों के साधनों के बीच अंतर का परीक्षण करने की अनुमति देते हैं।

परिकल्पना परीक्षण में, हमेशा एक प्रकार I त्रुटि दर होती है, जो हमारे महत्व स्तर (अल्फा) द्वारा परिभाषित होती है और हमें एक अशक्त परिकल्पना को अस्वीकार करने की संभावना बताती है जो वास्तव में सच है। दूसरे शब्दों में, यह “गलत सकारात्मक” प्राप्त करने की संभावना है, अर्थात जब हम दावा करते हैं कि समूहों के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर है, जबकि वास्तव में ऐसा नहीं है।

जब हम परिकल्पना परीक्षण करते हैं, तो टाइप I त्रुटि दर महत्व स्तर के बराबर होती है, जिसे आमतौर पर 0.01, 0.05 या 0.10 चुना जाता है। हालाँकि, जब हम एक साथ कई परिकल्पना परीक्षण चलाते हैं, तो गलत सकारात्मक मिलने की संभावना बढ़ जाती है।

उदाहरण के लिए, कल्पना करें कि हम 20-तरफा पासा घुमाते हैं। पासे के “1” पर गिरने की संभावना केवल 5% है। लेकिन यदि आप एक साथ दो पासे घुमाते हैं, तो एक पासे के “1” पर गिरने की संभावना 9.75% तक बढ़ जाती है। यदि हम एक साथ पांच पासे फेंकते हैं, तो संभावना 22.6% तक बढ़ जाती है।

हम जितने अधिक पासे घुमाएंगे, उतनी ही अधिक संभावना होगी कि एक पासा “1” पर आएगा। इसी तरह, यदि हम 0.05 के महत्व स्तर का उपयोग करके एक साथ कई परिकल्पना परीक्षण चलाते हैं, तो हमें गलत सकारात्मक मिलने की संभावना केवल 0.05 से अधिक बढ़ जाती है।

एनोवा में एकाधिक तुलनाएँ

जब हम एनोवा प्रदर्शन करते हैं, तो हम अक्सर तीन या अधिक समूहों की तुलना करते हैं। इसलिए जब हम समूह साधनों के बीच अंतर का पता लगाने के लिए पोस्ट हॉक परीक्षण करते हैं, तो हम कई जोड़ीवार तुलनाओं का पता लगाना चाहते हैं।

उदाहरण के लिए, मान लें कि हमारे पास चार समूह हैं: ए, बी, सी और डी। इसका मतलब है कि कुल छह जोड़ीवार तुलनाएं हैं जिन्हें हम पोस्ट हॉक टेस्ट के साथ जांचना चाहते हैं:

ए – बी (समूह ए के औसत और समूह बी के औसत के बीच का अंतर)
एसी
घोषणा
ईसा पूर्व
कॉमिक्स
सीडी

यदि हमारे पास चार से अधिक समूह हैं, तो जोड़ीवार तुलनाओं की संख्या जो हम करना चाहेंगे वह और भी अधिक बढ़ जाएगी। निम्नलिखित तालिका प्रत्येक समूह की संख्या के साथ जुड़ी जोड़ीवार तुलनाओं की संख्या के साथ-साथ प्रति परिवार त्रुटि दर को दर्शाती है:

ध्यान दें कि जैसे-जैसे समूहों की संख्या (और इसलिए जोड़ीवार तुलनाओं की संख्या) बढ़ती है, प्रति-परिवार त्रुटि दर तेजी से बढ़ती है। वास्तव में, एक बार जब हम छह समूहों तक पहुँच जाते हैं, तो हमारे गलत सकारात्मक होने की संभावना वास्तव में 50% से अधिक हो जाती है!

इसका मतलब यह है कि अगर हमें यह जानते हुए कि हमारी पारिवारिक त्रुटि दर इतनी अधिक है, तो हमें अपने परिणामों के बारे में गंभीर संदेह होगा।

सौभाग्य से, पोस्ट-हॉक परीक्षण हमें परिवार द्वारा त्रुटि दर को नियंत्रित करते हुए समूहों के बीच कई तुलना करने की अनुमति देता है।

उदाहरण: पोस्ट-हॉक परीक्षणों के साथ एक-तरफ़ा एनोवा

निम्नलिखित उदाहरण दिखाता है कि पोस्ट हॉक परीक्षणों के साथ एक-तरफ़ा एनोवा कैसे निष्पादित किया जाए।

नोट: यह उदाहरण R प्रोग्रामिंग भाषा का उपयोग करता है, लेकिन परीक्षण के परिणाम या मुख्य निष्कर्षों को समझने के लिए आपको R को जानने की आवश्यकता नहीं है।

सबसे पहले, हम एक डेटासेट बनाएंगे जिसमें चार समूह (ए, बी, सी, डी) होंगे जिनमें प्रति समूह 20 अवलोकन होंगे:

 #make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

# group amount
#1 To 2.796526
#2 A 3.116372
#3 A 3.718560
#4 A 4.724623
#5 A 2.605046
#6 A 4.695169

इसके बाद, हम डेटासेट पर एक-तरफ़ा एनोवा करेंगे:

 #fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

# Df Sum Sq Mean Sq F value Pr(>F)    
#group 3 25.37 8.458 17.66 8.53e-09 ***
#Residuals 76 36.39 0.479            

एनोवा तालिका परिणाम से, हम देखते हैं कि एफ आँकड़ा 17.66 है और संबंधित पी-मान बेहद छोटा है।

इसका मतलब यह है कि हमारे पास उस अशक्त परिकल्पना को अस्वीकार करने के लिए पर्याप्त सबूत हैं कि सभी समूह के साधन समान हैं। फिर हम यह निर्धारित करने के लिए पोस्ट हॉक परीक्षण का उपयोग कर सकते हैं कि कौन से समूह के साधन एक दूसरे से भिन्न हैं।

हम निम्नलिखित पोस्ट हॉक परीक्षणों के उदाहरणों की समीक्षा करेंगे:

टकी परीक्षण – तब उपयोगी होता है जब आप सभी संभावित जोड़ीवार तुलना करना चाहते हैं

होल्म की विधि – टकी परीक्षण की तुलना में थोड़ा अधिक रूढ़िवादी परीक्षण

डननेट का सुधार – तब उपयोगी होता है जब आप प्रत्येक समूह के माध्य की नियंत्रण माध्य से तुलना करना चाहते हैं और उपचार के साधनों की एक दूसरे से तुलना नहीं करना चाहते हैं।

तुकी परीक्षण

हम अंतर्निहित R फ़ंक्शन TukeyHSD() का उपयोग करके कई तुलनाओं के लिए Tukey परीक्षण इस प्रकार कर सकते हैं:

 #perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

ध्यान दें कि हमने निर्दिष्ट किया है कि हमारा आत्मविश्वास स्तर 95% है, जिसका अर्थ है कि हम चाहते हैं कि हमारी प्रति-परिवार त्रुटि दर 0.05 हो। आर हमें प्रत्येक जोड़ीवार अंतर की तुलना करने के लिए दो मीट्रिक देता है:

  • माध्य अंतर के लिए विश्वास अंतराल ( lwr और upr के मानों द्वारा दिया गया)
  • माध्य अंतर के लिए पी-मान समायोजित किया गया

कॉन्फिडेंस इंटरवल और पी-वैल्यू एक ही निष्कर्ष पर ले जाएंगे।

उदाहरण के लिए, समूह सी और समूह ए के बीच औसत अंतर के लिए 95% विश्वास अंतराल (0.2813, 1.4309) है, और क्योंकि इस अंतराल में शून्य नहीं है, हम जानते हैं कि इन दोनों समूहों के साधनों के बीच का अंतर सांख्यिकीय रूप से महत्वपूर्ण है। विशेष रूप से, हम जानते हैं कि अंतर सकारात्मक है, क्योंकि विश्वास अंतराल की निचली सीमा शून्य से अधिक है।

इसी प्रकार, समूह सी और समूह ए के बीच औसत अंतर के लिए पी-मान 0.0011 है, जो हमारे महत्व स्तर 0.05 से कम है, जो यह भी इंगित करता है कि इन दोनों समूहों के बीच का अंतर सांख्यिकीय रूप से महत्वपूर्ण है।

हम आर में प्लॉट() फ़ंक्शन का उपयोग करके टुकी परीक्षण के परिणामस्वरूप 95% विश्वास अंतराल की कल्पना भी कर सकते हैं:

 plot(TukeyHSD(anova_model, conf.level=.95))

यदि अंतराल में शून्य है, तो हम जानते हैं कि समूह के साधनों के बीच का अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं है। उपरोक्त उदाहरण में, बीए और सीबी के अंतर सांख्यिकीय रूप से महत्वपूर्ण नहीं हैं, लेकिन अन्य चार जोड़ीवार तुलनाओं के अंतर सांख्यिकीय रूप से महत्वपूर्ण हैं।

होल्म की विधि

एक और पोस्ट हॉक परीक्षण जो हम कर सकते हैं वह होल्म की विधि है। इस परीक्षण को आम तौर पर तुकी परीक्षण की तुलना में अधिक रूढ़िवादी माना जाता है।

हम कई जोड़ीदार तुलनाओं के लिए होल्म की विधि को चलाने के लिए आर में निम्नलिखित कोड का उपयोग कर सकते हैं:

 #perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
# Pairwise comparisons using t tests with pooled SD 
#
#data: data_long$amount and data_long$group 
#
#ABC
#B 0.20099 - -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm

यह परीक्षण प्रत्येक जोड़ीवार तुलना के लिए पी-मानों का एक ग्रिड प्रदान करता है। उदाहरण के लिए, समूह ए और समूह बी के माध्य के बीच अंतर के लिए पी-मान 0.20099 है।

यदि आप इस परीक्षण के पी-मानों की तुलना तुकी के परीक्षण के पी-मानों से करते हैं, तो आप देखेंगे कि समूह सी और डी के बीच अंतर को छोड़कर, प्रत्येक जोड़ीवार तुलना एक ही निष्कर्ष पर ले जाती है। -इस अंतर का मान टकी के परीक्षण में 0.0505 था जबकि होल्म की विधि में 0.02108 था।

इस प्रकार, टुकी के परीक्षण का उपयोग करके, हमने निष्कर्ष निकाला कि समूह सी और समूह डी के बीच का अंतर 0.05 महत्व स्तर पर सांख्यिकीय रूप से महत्वपूर्ण नहीं था, लेकिन होल्म की विधि का उपयोग करके, हमने निष्कर्ष निकाला कि समूह सी और समूह डी के बीच का अंतर सांख्यिकीय रूप से महत्वपूर्ण था

सामान्य तौर पर, होल्म की विधि द्वारा उत्पादित पी-मान तुकी परीक्षण द्वारा उत्पादित पी-वैल्यू से कम होते हैं।

डननेट का सुधार

एक अन्य विधि जिसका उपयोग हम अनेक तुलनाओं के लिए कर सकते हैं वह है ड्यूनेट सुधार। हम इस दृष्टिकोण का उपयोग तब करेंगे जब हम प्रत्येक समूह के साधनों की तुलना नियंत्रण माध्य से करना चाहते हैं और हम उपचार साधनों की एक दूसरे से तुलना नहीं करना चाहते हैं।

उदाहरण के लिए, नीचे दिए गए कोड का उपयोग करके, हम समूह बी, सी और डी के समूह साधनों की तुलना समूह ए से करते हैं। इस प्रकार, हम समूह ए को एक नियंत्रण समूह के रूप में उपयोग करते हैं और हमें समूह बी, सी के बीच अंतर में कोई दिलचस्पी नहीं है। ., और डी.

 #load multcomp library necessary for using Dunnett's Correction
library(multicomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#performcomparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Assumptions:
#Estimate Std. Error t value Pr(>|t|)    
#B - A == 0 0.2823 0.2188 1.290 0.432445    
#C - A == 0 0.8561 0.2188 3.912 0.000545 ***
#D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***

आउटपुट में पी-वैल्यू से, हम निम्नलिखित देख सकते हैं:

  • समूह बी और समूह ए के माध्य के बीच का अंतर 0.05 महत्व के स्तर पर सांख्यिकीय रूप से महत्वपूर्ण नहीं है । इस परीक्षण के लिए पी-मान 0.4324 है।
  • समूह सी और समूह ए के माध्य के बीच का अंतर 0.05 के महत्व स्तर पर सांख्यिकीय रूप से महत्वपूर्ण है । इस परीक्षण के लिए पी-वैल्यू 0.0005 है।
  • समूह डी और समूह ए के माध्य के बीच का अंतर 0.05 के महत्व स्तर पर सांख्यिकीय रूप से महत्वपूर्ण है । इस परीक्षण के लिए पी-वैल्यू 0.00004 है।

जैसा कि पहले उल्लेख किया गया है, यह दृष्टिकोण समूह ए को “नियंत्रण” समूह के रूप में मानता है और समूह ए के साथ अन्य सभी समूहों के माध्य की तुलना करता है। ध्यान दें कि समूह बी, सी और डी के बीच अंतर के लिए कोई परीक्षण नहीं किया जाता है क्योंकि हम नहीं करते हैं। यह मत करो मुझे इन समूहों के बीच मतभेदों में कोई दिलचस्पी नहीं है।

पोस्ट-हॉक परीक्षण और सांख्यिकीय शक्ति पर एक नोट

पोस्ट हॉक परीक्षण परिवारवार त्रुटि दर को नियंत्रित करने का उत्कृष्ट काम करते हैं, लेकिन इसका फायदा यह है कि वे तुलना की सांख्यिकीय शक्ति को कम कर देते हैं। दरअसल, परिवार-वार त्रुटि दर को कम करने का एकमात्र तरीका सभी व्यक्तिगत तुलनाओं के लिए कम महत्व स्तर का उपयोग करना है।

उदाहरण के लिए, जब हम छह जोड़ीवार तुलनाओं के लिए तुकी परीक्षण का उपयोग करते हैं और हम 0.05 की पारिवारिक त्रुटि दर बनाए रखना चाहते हैं, तो हमें प्रत्येक व्यक्तिगत महत्व स्तर के लिए लगभग 0.011 के महत्व स्तर का उपयोग करना चाहिए। हम जितनी अधिक जोड़ीवार तुलना करेंगे, प्रत्येक व्यक्तिगत महत्व स्तर के लिए हमें उतना ही कम महत्व स्तर का उपयोग करना चाहिए।

समस्या यह है कि कम महत्व का स्तर कम सांख्यिकीय शक्ति के अनुरूप है। इसका मतलब यह है कि यदि जनसंख्या में समूह के साधनों के बीच अंतर वास्तव में मौजूद है, तो कम शक्ति वाले अध्ययन से इसका पता लगाने की संभावना कम है।

इस ट्रेडऑफ़ के प्रभाव को कम करने का एक तरीका यह है कि हम जोड़ीवार तुलनाओं की संख्या को कम कर दें। उदाहरण के लिए, पिछले उदाहरणों में, हमने चार अलग-अलग समूहों के लिए छह जोड़ीवार तुलनाएँ कीं। हालाँकि, आपके अध्ययन की ज़रूरतों के आधार पर, आप केवल कुछ तुलनाएँ करना चाह सकते हैं।

कम तुलना करके, आपको सांख्यिकीय शक्ति को कम करने की उतनी आवश्यकता नहीं है।

यह ध्यान रखना महत्वपूर्ण है कि आपको एनोवा करने से पहले यह निर्धारित करना होगा कि आप किन समूहों की तुलना करना चाहते हैं और इन तुलनाओं को करने के लिए आप किस पोस्ट हॉक टेस्ट का उपयोग करेंगे। अन्यथा, यदि आप बस यह देखते हैं कि कौन सा पोस्ट हॉक परीक्षण सांख्यिकीय रूप से महत्वपूर्ण परिणाम देता है, तो यह अध्ययन की अखंडता को कम कर देता है।

निष्कर्ष

इस लेख में हमने निम्नलिखित बातें सीखीं:

  • एनोवा का उपयोग यह निर्धारित करने के लिए किया जाता है कि तीन या अधिक स्वतंत्र समूहों के साधनों के बीच सांख्यिकीय रूप से महत्वपूर्ण अंतर है या नहीं।
  • यदि कोई एनोवा हमारे महत्व स्तर से नीचे पी-वैल्यू उत्पन्न करता है, तो हम यह पता लगाने के लिए पोस्ट हॉक परीक्षणों का उपयोग कर सकते हैं कि किस समूह का मतलब एक दूसरे से भिन्न है।
  • पोस्ट-हॉक परीक्षण हमें कई जोड़ीवार तुलनाएँ करते समय प्रति परिवार त्रुटि दर को नियंत्रित करने की अनुमति देते हैं।
  • परिवार-वार त्रुटि दर को नियंत्रित करने का व्यापार कम सांख्यिकीय शक्ति है। हम कम जोड़ीवार तुलना करके कम सांख्यिकीय शक्ति के प्रभाव को कम कर सकते हैं।
  • आपको पहले यह निर्धारित करना होगा कि आप किन समूहों पर जोड़ीवार तुलना करना चाहते हैं और ऐसा करने के लिए आप कौन से पोस्ट हॉक परीक्षण का उपयोग करेंगे।

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *