دليل لاستخدام اختبار ما بعد المخصص مع anova
ANOVA هو اختبار إحصائي يستخدم لتحديد ما إذا كان هناك فرق ذو دلالة إحصائية بين متوسطات ثلاث مجموعات مستقلة أو أكثر أم لا.
الافتراضات المستخدمة في ANOVA هي كما يلي:
الفرضية الصفرية (H 0 ): μ 1 = μ 2 = μ 3 = … = μ k (المتوسطات متساوية لكل مجموعة)
الفرضية البديلة: (Ha): تختلف إحدى الوسائل على الأقل عن غيرها
إذا كانت القيمة p لتحليل التباين (ANOVA) أقل من مستوى الأهمية، فيمكننا رفض فرضية العدم ونستنتج أن لدينا أدلة كافية لنقول أن إحدى وسائل المجموعة على الأقل تختلف عن الوسائل الأخرى.
ومع ذلك، هذا لا يخبرنا ما هي المجموعات التي تختلف عن بعضها البعض. وهذا يخبرنا ببساطة أنه ليست كل متوسطات المجموعة متساوية.
من أجل معرفة المجموعات التي تختلف عن بعضها البعض بالضبط، نحتاج إلى إجراء اختبار ما بعد المخصص (المعروف أيضًا باسم اختبار المقارنة المتعددة)، والذي سيسمح لنا باستكشاف الفرق بين متوسطات المجموعات المتعددة مع التحكم في الأسرة أيضًا . معدل خطأ معقول.
ملاحظة فنية: من المهم ملاحظة أنه يجب علينا إجراء اختبار لاحق فقط عندما تكون قيمة ANOVA ذات دلالة إحصائية. إذا لم تكن القيمة p ذات دلالة إحصائية، فهذا يشير إلى أن متوسطات جميع المجموعات لا تختلف عن بعضها البعض. ولذلك، ليست هناك حاجة لإجراء اختبار لاحق لتحديد المجموعات التي تختلف عن بعضها البعض.
معدل الخطأ العائلي
كما ذكرنا سابقًا، تسمح لنا الاختبارات اللاحقة باختبار الفرق بين وسائل مجموعات متعددة مع التحكم أيضًا في معدل الخطأ لكل عائلة .
في اختبار الفرضيات ، يوجد دائمًا معدل خطأ من النوع الأول، والذي يتم تحديده بواسطة مستوى الأهمية (ألفا) ويخبرنا باحتمالية رفض الفرضية الصفرية التي تكون صحيحة بالفعل. بمعنى آخر، هو احتمال الحصول على “إيجابية كاذبة”، أي عندما ندعي أن هناك فرقًا ذا دلالة إحصائية بين المجموعتين، في حين أن الأمر ليس كذلك في الواقع.
عندما نقوم بإجراء اختبار الفرضيات، فإن معدل الخطأ من النوع الأول يساوي مستوى الأهمية، والذي يتم اختياره عادةً ليكون 0.01 أو 0.05 أو 0.10. ومع ذلك، عندما نجري اختبارات فرضية متعددة في وقت واحد، فإن احتمال الحصول على نتيجة إيجابية كاذبة يزيد.
على سبيل المثال، تخيل أننا نلقي حجر نرد ذي 20 وجهًا. احتمال سقوط حجر النرد على الرقم “1” هو 5% فقط. ولكن إذا رميت حجري نرد في وقت واحد، فإن احتمال وصول أحد حجري النرد إلى الرقم “1” يزيد إلى 9.75%. إذا رمينا خمسة أحجار نرد مرة واحدة، فإن الاحتمال يزيد إلى 22.6%.
كلما زاد عدد أحجار النرد التي نرميها، زاد احتمال أن يستقر أحد أحجار النرد على الرقم “1”. وبالمثل، إذا أجرينا اختبارات فرضية متعددة في وقت واحد باستخدام مستوى أهمية قدره 0.05، فإن احتمال حصولنا على نتيجة إيجابية كاذبة يزيد عن 0.05 فقط.
مقارنات متعددة في ANOVA
عندما نقوم بإجراء تحليل التباين (ANOVA)، فإننا غالبًا ما نقارن بين ثلاث مجموعات أو أكثر. لذلك عندما نقوم بإجراء اختبار لاحق لاستكشاف الفرق بين متوسطات المجموعة، فإننا نريد استكشاف مقارنات زوجية متعددة.
على سبيل المثال، لنفترض أن لدينا أربع مجموعات: A وB وC وD. وهذا يعني أن هناك إجمالي ستة مقارنات زوجية نريد فحصها باستخدام اختبار لاحق:
أ – ب (الفرق بين متوسط المجموعة أ ومتوسط المجموعة ب)
تكييف
إعلان
قبل الميلاد
كاريكاتير
قرص مضغوط
إذا كان لدينا أكثر من أربع مجموعات، فإن عدد المقارنات الزوجية التي سنرغب في إجرائها سوف يزيد أكثر. يوضح الجدول التالي عدد المقارنات الزوجية المرتبطة بكل عدد من المجموعات بالإضافة إلى معدل الخطأ لكل عائلة:
لاحظ أن معدل الخطأ لكل عائلة يزداد بسرعة مع زيادة عدد المجموعات (وبالتالي عدد المقارنات الزوجية). في الواقع، بمجرد وصولنا إلى ست مجموعات، فإن فرصة حصولنا على نتيجة إيجابية كاذبة تزيد في الواقع عن 50%!
وهذا يعني أنه سيكون لدينا شكوك جدية حول نتائجنا إذا اضطررنا إلى إجراء العديد من المقارنات الزوجية، مع العلم أن معدل الخطأ العائلي لدينا مرتفع للغاية.
ولحسن الحظ، يسمح لنا الاختبار اللاحق بإجراء مقارنات متعددة بين المجموعات مع التحكم في معدل الخطأ حسب العائلة.
مثال: تحليل التباين أحادي الاتجاه (ANOVA) مع اختبارات ما بعد الاختبار
يوضح المثال التالي كيفية إجراء تحليل التباين أحادي الاتجاه (ANOVA) باستخدام الاختبارات اللاحقة.
ملاحظة: يستخدم هذا المثال لغة برمجة R، لكنك لا تحتاج إلى معرفة لغة R لفهم نتائج الاختبار أو الوجبات الرئيسية.
أولاً، سنقوم بإنشاء مجموعة بيانات تحتوي على أربع مجموعات (أ، ب، ج، د) مع 20 ملاحظة لكل مجموعة:
#make this example reproducible set.seed(1) #load tidyr library to convert data from wide to long format library(tidyr) #create wide dataset data <- data.frame(A = runif(20, 2, 5), B = runif(20, 3, 5), C = runif(20, 3, 6), D = runif(20, 4, 6)) #convert to long dataset for ANOVA data_long <- gather(data, key = "group", value = "amount", A, B, C, D) #view first six lines of dataset head(data_long) # group amount #1 To 2.796526 #2 A 3.116372 #3 A 3.718560 #4 A 4.724623 #5 A 2.605046 #6 A 4.695169
بعد ذلك، سنقوم بإجراء ANOVA أحادي الاتجاه لمجموعة البيانات:
#fit anova model anova_model <- aov(amount ~ group, data = data_long) #view summary of anova model summary(anova_model) # Df Sum Sq Mean Sq F value Pr(>F) #group 3 25.37 8.458 17.66 8.53e-09 *** #Residuals 76 36.39 0.479
من نتيجة جدول ANOVA، نرى أن إحصائيات F هي 17.66 والقيمة p المقابلة صغيرة للغاية.
وهذا يعني أن لدينا ما يكفي من الأدلة لرفض الفرضية الصفرية القائلة بأن جميع وسائل المجموعة متساوية. ثم يمكننا استخدام اختبار ما بعد مخصص لتحديد متوسطات المجموعة التي تختلف عن بعضها البعض.
سنراجع أمثلة على الاختبارات اللاحقة التالية:
اختبار Tukey – مفيد عندما تريد إجراء جميع المقارنات الزوجية الممكنة
طريقة هولم – اختبار أكثر تحفظًا قليلاً من اختبار توكي
تصحيح دونيت – مفيد عندما تريد مقارنة متوسط كل مجموعة مع متوسط التحكم ولا ترغب في مقارنة وسائل العلاج مع بعضها البعض.
اختبار توكي
يمكننا إجراء اختبار Tukey لإجراء مقارنات متعددة باستخدام وظيفة R المضمنة TukeyHSD() على النحو التالي:
#perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95)
#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371
لاحظ أننا حددنا أن مستوى الثقة لدينا هو 95%، مما يعني أننا نريد أن يكون معدل الخطأ لكل عائلة لدينا هو 0.05. يقدم لنا R مقياسين لمقارنة كل اختلاف زوجي:
- فترة الثقة لمتوسط الفرق (معطى بقيمتي lwr و upr )
- القيمة p المعدلة لفرق المتوسط
سيؤدي فاصل الثقة والقيمة p إلى نفس النتيجة.
على سبيل المثال، فاصل الثقة 95% لمتوسط الفرق بين المجموعة ج والمجموعة أ هو (0.2813، 1.4309)، ولأن هذا الفاصل لا يحتوي على صفر، فإننا نعلم أن الفرق بين متوسطي هاتين المجموعتين له دلالة إحصائية. وعلى وجه الخصوص، نحن نعلم أن الفرق إيجابي، لأن الحد الأدنى لفترة الثقة أكبر من الصفر.
وبالمثل، فإن القيمة p للفرق المتوسط بين المجموعة C والمجموعة A هي 0.0011، وهو أقل من مستوى الأهمية لدينا البالغ 0.05، مما يشير أيضًا إلى أن الفرق بين متوسطي هاتين المجموعتين له دلالة إحصائية.
يمكننا أيضًا تصور فواصل الثقة 95% الناتجة عن اختبار Tukey باستخدام الدالة plot() في R:
plot(TukeyHSD(anova_model, conf.level=.95))
إذا كانت الفترة تحتوي على صفر، فإننا نعلم أن الفرق بين متوسطات المجموعة ليس ذا دلالة إحصائية. في المثال أعلاه، الاختلافات بين BA وCB ليست ذات دلالة إحصائية، ولكن الاختلافات في المقارنات الزوجية الأربعة الأخرى ذات دلالة إحصائية.
طريقة هولم
اختبار لاحق آخر يمكننا إجراؤه هو طريقة هولم. يعتبر هذا الاختبار بشكل عام أكثر تحفظًا من اختبار توكي.
يمكننا استخدام الكود التالي في R لتشغيل طريقة Holm لإجراء مقارنات زوجية متعددة:
#perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm")
# Pairwise comparisons using t tests with pooled SD
#
#data: data_long$amount and data_long$group
#
#ABC
#B 0.20099 - -
#C 0.00079 0.02108 -
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm
يوفر هذا الاختبار شبكة من القيم الاحتمالية لكل مقارنة زوجية. على سبيل المثال، القيمة p للفرق بين متوسط المجموعة A والمجموعة B هي 0.20099.
إذا قارنت القيم الاحتمالية من هذا الاختبار مع القيم الاحتمالية من اختبار توكي، ستلاحظ أن كل من المقارنات الزوجية تؤدي إلى نفس النتيجة، باستثناء الفرق بين المجموعتين C وD. – كانت قيمة هذا الاختلاف 0.0505 في اختبار توكي مقارنة بـ 0.02108 في طريقة هولم.
وهكذا، باستخدام اختبار توكي، استنتجنا أن الفرق بين المجموعة C والمجموعة D لم يكن ذو دلالة إحصائية عند مستوى دلالة 0.05، ولكن باستخدام طريقة هولم، استنتجنا أن الفرق بين المجموعة C والمجموعة D كان ذو دلالة إحصائية.
بشكل عام، تميل القيم الاحتمالية التي تنتجها طريقة هولم إلى أن تكون أقل من تلك التي ينتجها اختبار توكي.
تصحيح دونيت
هناك طريقة أخرى يمكننا استخدامها لإجراء مقارنات متعددة وهي تصحيح دونيت. سوف نستخدم هذا النهج عندما نريد مقارنة وسائل كل مجموعة مع وسيلة التحكم ولا نريد مقارنة وسائل العلاج مع بعضها البعض.
على سبيل المثال، باستخدام الكود أدناه، نقوم بمقارنة متوسطات المجموعة B وC وD مع متوسطات المجموعة A. وبالتالي، نستخدم المجموعة A كمجموعة ضابطة ولا نهتم بالاختلافات بين المجموعات B وC .، و د.
#load multcomp library necessary for using Dunnett's Correction library(multicomp) #convert group variable to factor data_long$group <- as.factor(data_long$group) #fit anova model anova_model <- aov(amount ~ group, data = data_long) #performcomparisons dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett")) #view summary of comparisons summary(dunnet_comparison) #Multiple Comparisons of Means: Dunnett Contrasts # #Fit: aov(formula = amount ~ group, data = data_long) # #Linear Assumptions: #Estimate Std. Error t value Pr(>|t|) #B - A == 0 0.2823 0.2188 1.290 0.432445 #C - A == 0 0.8561 0.2188 3.912 0.000545 *** #D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***
ومن القيم p في المخرجات يمكننا أن نرى ما يلي:
- الفرق بين متوسط المجموعة (ب) ومتوسط المجموعة (أ) ليس ذو دلالة إحصائية عند مستوى دلالة 0.05. القيمة p لهذا الاختبار هي 0.4324 .
- الفرق بين متوسطي المجموعة C والمجموعة A ذو دلالة إحصائية عند مستوى دلالة 0.05. القيمة p لهذا الاختبار هي 0.0005 .
- الفرق بين متوسطي المجموعة (د) والمجموعة (أ) ذو دلالة إحصائية عند مستوى دلالة 0.05. القيمة p لهذا الاختبار هي 0.00004 .
كما ذكرنا سابقًا، يتعامل هذا النهج مع المجموعة “أ” باعتبارها المجموعة “الضابطة” ويقارن ببساطة متوسط جميع المجموعات الأخرى بمتوسط المجموعة “أ”. لاحظ أنه لا يتم إجراء أي اختبارات للاختلافات بين المجموعات “ب” و”ج” و”د” لأننا لا نفعل ذلك. لا تفعل ذلك. أنا غير مهتم بالاختلافات بين هذه المجموعات.
ملاحظة حول الاختبار اللاحق والقوة الإحصائية
تقوم الاختبارات اللاحقة بعمل ممتاز في التحكم في معدل الخطأ العائلي، ولكن المفاضلة هي أنها تقلل من القوة الإحصائية للمقارنات. وفي الواقع، فإن الطريقة الوحيدة لتقليل معدل الخطأ العائلي هي استخدام مستوى أهمية أقل لجميع المقارنات الفردية.
على سبيل المثال، عندما نستخدم اختبار توكي لستة مقارنات زوجية ونريد الحفاظ على معدل خطأ عائلي قدره 0.05، يجب أن نستخدم مستوى دلالة يبلغ 0.011 تقريبًا لكل مستوى دلالة فردي. كلما زادت المقارنات الزوجية التي نجريها، كلما انخفض مستوى الأهمية الذي يجب أن نستخدمه لكل مستوى أهمية فردي.
المشكلة هي أن مستويات الأهمية المنخفضة تتوافق مع انخفاض القوة الإحصائية. وهذا يعني أنه إذا كان هناك فرق بين متوسطات المجموعة موجودًا بالفعل في المجتمع، فمن غير المرجح أن تكتشفه دراسة أقل قوة.
إحدى الطرق لتقليل تأثيرات هذه المقايضة هي ببساطة تقليل عدد المقارنات الزوجية التي نجريها. على سبيل المثال، في الأمثلة السابقة، أجرينا ستة مقارنات زوجية للمجموعات الأربع المختلفة. ومع ذلك، اعتمادًا على احتياجات دراستك، قد ترغب فقط في إجراء بعض المقارنات.
ومن خلال إجراء عدد أقل من المقارنات، لن تحتاج إلى تقليل القوة الإحصائية بنفس القدر.
من المهم ملاحظة أنه يجب عليك قبل إجراء تحليل التباين (ANOVA) تحديد المجموعات التي تريد إجراء المقارنات عليها بالضبط، وأي اختبار لاحق مخصص ستستخدمه لإجراء هذه المقارنات. بخلاف ذلك، إذا رأيت ببساطة الاختبار اللاحق الذي ينتج عنه نتائج ذات دلالة إحصائية، فإن ذلك يقلل من نزاهة الدراسة.
خاتمة
وفي هذا المقال تعلمنا الأمور التالية:
- يتم استخدام تحليل التباين (ANOVA) لتحديد ما إذا كان هناك فرق ذو دلالة إحصائية بين متوسطات ثلاث مجموعات مستقلة أو أكثر أم لا.
- إذا أنتجت ANOVA قيمة p أقل من مستوى الأهمية لدينا، فيمكننا استخدام الاختبارات اللاحقة لمعرفة متوسطات المجموعة التي تختلف عن بعضها البعض.
- تسمح لنا الاختبارات اللاحقة بالتحكم في معدل الخطأ لكل عائلة أثناء إجراء العديد من المقارنات الزوجية.
- إن مقايضة التحكم في معدل الخطأ العائلي هي قوة إحصائية أقل. يمكننا تقليل تأثيرات القوة الإحصائية المنخفضة عن طريق إجراء عدد أقل من المقارنات الزوجية.
- يجب عليك أولاً تحديد المجموعات التي تريد إجراء مقارنات زوجية عليها والاختبار اللاحق الذي ستستخدمه للقيام بذلك.