คู่มือการใช้การทดสอบหลังการทดลองด้วย anova
ANOVA คือการทดสอบทางสถิติที่ใช้ในการพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างค่าเฉลี่ยของกลุ่มอิสระสามกลุ่มขึ้นไปหรือไม่
สมมติฐาน ที่ใช้ในการวิเคราะห์ความแปรปรวนมีดังนี้:
สมมติฐานว่าง (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (ค่าเฉลี่ยของแต่ละกลุ่มเท่ากัน)
สมมติฐานทางเลือก: (ฮา): อย่างน้อยก็มีวิธีการหนึ่งที่แตกต่างจากวิธีอื่นๆ
ถ้า ค่า p ของ ANOVA ต่ำกว่าระดับนัยสำคัญ เราสามารถปฏิเสธสมมติฐานว่างได้และสรุปได้ว่าเรามีหลักฐานเพียงพอที่จะบอกว่าค่าเฉลี่ยของกลุ่มอย่างน้อยหนึ่งรายการแตกต่างจากค่าเฉลี่ยอื่นๆ
อย่างไรก็ตาม นี่ไม่ได้บอกเราว่ากลุ่ม ใด มีความแตกต่างกัน นี่บอกเราว่าค่าเฉลี่ยกลุ่มไม่เท่ากันทั้งหมด
หากต้องการทราบว่ากลุ่มใดมีความแตกต่างกัน เราต้องทำการ ทดสอบหลังการทดสอบ (หรือที่เรียกว่าการทดสอบเปรียบเทียบหลายรายการ) ซึ่งจะช่วยให้เราสำรวจความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มต่างๆ ในขณะที่ควบคุมครอบครัวด้วย . อัตราความผิดพลาดที่สมเหตุสมผล
หมายเหตุทางเทคนิค: สิ่งสำคัญที่ควรทราบก็คือ เราควรทำการทดสอบหลังการทดสอบเฉพาะเมื่อค่า p-value ของ ANOVA มีนัยสำคัญทางสถิติเท่านั้น หากค่า p ไม่มีนัยสำคัญทางสถิติ แสดงว่าค่าเฉลี่ยของกลุ่มทั้งหมดไม่แตกต่างกัน ดังนั้นจึงไม่จำเป็นต้องทำการทดสอบหลังการทดสอบเพื่อพิจารณาว่ากลุ่มใดมีความแตกต่างกัน
อัตราข้อผิดพลาดของครอบครัว
ดังที่ได้กล่าวไว้ก่อนหน้านี้ การทดสอบหลังการทดสอบช่วยให้เราสามารถทดสอบความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มต่างๆ ขณะเดียวกันก็ควบคุม อัตราข้อผิดพลาดต่อตระกูล ด้วย
ใน การทดสอบสมมติฐาน จะมีอัตราความผิดพลาดประเภทที่ 1 อยู่เสมอ ซึ่งกำหนดโดยระดับนัยสำคัญ (อัลฟา) ของเรา และบอกเราถึงความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างที่เป็นจริง กล่าวอีกนัยหนึ่ง คือความน่าจะเป็นที่จะได้รับ “ผลบวกลวง” กล่าวคือเมื่อเราอ้างว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างกลุ่มต่างๆ ในขณะที่ในความเป็นจริงกลับไม่เป็นเช่นนั้น
เมื่อเราทำการทดสอบสมมติฐาน อัตราความผิดพลาดประเภทที่ 1 จะเท่ากับระดับนัยสำคัญ ซึ่งโดยปกติจะเลือกเป็น 0.01, 0.05 หรือ 0.10 อย่างไรก็ตาม เมื่อเรารันการทดสอบสมมติฐานหลายรายการพร้อมกัน ความน่าจะเป็นที่จะได้ผลบวกลวงจะเพิ่มขึ้น
เช่น ลองจินตนาการว่าเราทอยลูกเต๋า 20 หน้า ความน่าจะเป็นที่ลูกเต๋าจะตกที่ “1” นั้นมีเพียง 5% เท่านั้น แต่ถ้าคุณทอยลูกเต๋าสองลูกพร้อมกัน ความน่าจะเป็นที่ลูกเต๋าตัวใดตัวหนึ่งตกลงบนเลข “1” จะเพิ่มขึ้นเป็น 9.75% หากเราทอยลูกเต๋าห้าลูกพร้อมกัน ความน่าจะเป็นจะเพิ่มขึ้นเป็น 22.6%
ยิ่งเราทอยลูกเต๋ามากเท่าไร ความน่าจะเป็นที่ลูกเต๋าตัวใดตัวหนึ่งจะตกลงที่เลข “1” ก็จะยิ่งสูงขึ้นเท่านั้น ในทำนองเดียวกัน หากเราทำการทดสอบสมมติฐานหลายรายการพร้อมกันโดยใช้ระดับนัยสำคัญที่ 0.05 ความน่าจะเป็นที่เราได้รับผลบวกลวงจะเพิ่มขึ้นเกินเพียง 0.05
การเปรียบเทียบหลายรายการใน ANOVA
เมื่อเราดำเนินการวิเคราะห์ความแปรปรวน เรามักจะเปรียบเทียบสามกลุ่มขึ้นไป ดังนั้นเมื่อเราทำการทดสอบหลังการทดสอบเพื่อสำรวจความแตกต่างระหว่างค่าเฉลี่ยแบบกลุ่ม เราต้องการสำรวจการเปรียบเทียบแบบหลาย คู่
ตัวอย่างเช่น สมมติว่าเรามีสี่กลุ่ม: A, B, C และ D ซึ่งหมายความว่ามีการเปรียบเทียบแบบคู่ทั้งหมดหกกลุ่มที่เราต้องการตรวจสอบด้วยการทดสอบหลังการทดสอบ:
A – B (ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม A และค่าเฉลี่ยของกลุ่ม B)
เครื่องปรับอากาศ
ประกาศ
บี.ซี.
การ์ตูน
ซีดี
หากเรามีมากกว่าสี่กลุ่ม จำนวนการเปรียบเทียบแบบคู่ที่เราอยากจะดำเนินการจะเพิ่มขึ้นอีกเท่านั้น ตารางต่อไปนี้แสดงจำนวนการเปรียบเทียบแบบคู่ที่เกี่ยวข้องกับแต่ละกลุ่ม รวมถึงอัตราข้อผิดพลาดต่อตระกูล:
โปรดทราบว่าอัตราข้อผิดพลาดต่อตระกูลจะเพิ่มขึ้นอย่างรวดเร็วเมื่อจำนวนกลุ่ม (และจำนวนการเปรียบเทียบแบบคู่) เพิ่มขึ้น ในความเป็นจริง เมื่อเราไปถึงหกกลุ่มแล้ว โอกาสที่เราจะได้ผลบวกลวงนั้นมีมากกว่า 50%!
ซึ่งหมายความว่า เราจะมีข้อสงสัยอย่างมากเกี่ยวกับผลลัพธ์ของเราหากเราต้องทำการเปรียบเทียบแบบคู่หลายๆ ครั้ง โดยรู้ว่าอัตราข้อผิดพลาดทางครอบครัวของเรานั้นสูงมาก
โชคดีที่การทดสอบหลังการทดสอบช่วยให้เราสามารถเปรียบเทียบได้หลายรายการระหว่างกลุ่มในขณะที่ควบคุมอัตราข้อผิดพลาดตามกลุ่ม
ตัวอย่าง: การวิเคราะห์ความแปรปรวนแบบทางเดียวพร้อมการทดสอบหลังการทดสอบ
ตัวอย่างต่อไปนี้แสดงวิธีดำเนินการวิเคราะห์ ความแปรปรวนแบบทางเดียว ด้วยการทดสอบหลังการทดสอบ
หมายเหตุ: ตัวอย่างนี้ใช้ภาษาการเขียนโปรแกรม R แต่คุณไม่จำเป็นต้องรู้ R เพื่อทำความเข้าใจผลการทดสอบหรือประเด็นสำคัญ
ขั้นแรก เราจะสร้างชุดข้อมูลที่มีสี่กลุ่ม (A, B, C, D) โดยมีการสังเกต 20 รายการต่อกลุ่ม:
#make this example reproducible set.seed(1) #load tidyr library to convert data from wide to long format library(tidyr) #create wide dataset data <- data.frame(A = runif(20, 2, 5), B = runif(20, 3, 5), C = runif(20, 3, 6), D = runif(20, 4, 6)) #convert to long dataset for ANOVA data_long <- gather(data, key = "group", value = "amount", A, B, C, D) #view first six lines of dataset head(data_long) # group amount #1 To 2.796526 #2 A 3.116372 #3 A 3.718560 #4 A 4.724623 #5 A 2.605046 #6 A 4.695169
ต่อไป เราจะทำการวิเคราะห์ความแปรปรวนทางเดียวกับชุดข้อมูล:
#fit anova model anova_model <- aov(amount ~ group, data = data_long) #view summary of anova model summary(anova_model) # Df Sum Sq Mean Sq F value Pr(>F) #group 3 25.37 8.458 17.66 8.53e-09 *** #Residuals 76 36.39 0.479
จากผลลัพธ์ของตาราง ANOVA เราจะเห็นว่าสถิติ F คือ 17.66 และค่า p ที่สอดคล้องกันนั้นน้อยมาก
ซึ่งหมายความว่า เรามีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานว่างที่ว่าค่าเฉลี่ยกลุ่มทั้งหมดเท่ากัน จากนั้นเราสามารถใช้การทดสอบหลังการทดสอบเพื่อพิจารณาว่าค่าเฉลี่ยของกลุ่มใดที่แตกต่างกัน
เราจะตรวจสอบตัวอย่างการทดสอบหลังการทดสอบต่อไปนี้:
การทดสอบ Tukey – มีประโยชน์เมื่อคุณต้องการทำการเปรียบเทียบแบบคู่ที่เป็นไปได้ทั้งหมด
วิธีของโฮล์ม – การทดสอบแบบอนุรักษ์นิยมมากกว่าการทดสอบแบบทูคีย์เล็กน้อย
การแก้ไขของ Dunnett – มีประโยชน์เมื่อคุณต้องการเปรียบเทียบค่าเฉลี่ยของแต่ละกลุ่มกับค่าเฉลี่ยควบคุม และไม่ต้องการเปรียบเทียบวิธีการรักษาระหว่างกัน
การทดสอบทูกี้
เราสามารถทำการทดสอบ Tukey สำหรับการเปรียบเทียบหลายรายการโดยใช้ฟังก์ชัน R ในตัว TukeyHSD() ดังนี้:
#perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95)
#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371
โปรดทราบว่าเราระบุว่าระดับความเชื่อมั่นของเราคือ 95% ซึ่งหมายความว่าเราต้องการให้อัตราข้อผิดพลาดต่อตระกูลเป็น 0.05 R ให้ค่าเมตริกสองค่าแก่เราเพื่อเปรียบเทียบความแตกต่างแบบคู่แต่ละค่า:
- ช่วงความเชื่อมั่นสำหรับผลต่างเฉลี่ย (กำหนดโดยค่าของ lwr และ upr )
- ค่า p ถูกปรับตามผลต่างค่าเฉลี่ย
ช่วงความเชื่อมั่นและค่า p จะนำไปสู่ข้อสรุปเดียวกัน
ตัวอย่างเช่น ช่วงความเชื่อมั่น 95% สำหรับผลต่างค่าเฉลี่ยระหว่างกลุ่ม C และกลุ่ม A คือ (0.2813, 1.4309) และเนื่องจากช่วงความเชื่อมั่นนี้ไม่มีศูนย์ เราจึงทราบว่าความแตกต่างระหว่างค่าเฉลี่ยของทั้งสองกลุ่มนี้มีนัยสำคัญทางสถิติ โดยเฉพาะอย่างยิ่ง เรารู้ว่าความแตกต่างเป็นบวก เนื่องจากขีดจำกัดล่างของช่วงความเชื่อมั่นมีค่ามากกว่าศูนย์
ในทำนองเดียวกัน ค่า p สำหรับผลต่างค่าเฉลี่ยระหว่างกลุ่ม C และกลุ่ม A คือ 0.0011 ซึ่งต่ำกว่าระดับนัยสำคัญของเราที่ 0.05 ซึ่งบ่งชี้ด้วยว่าความแตกต่างระหว่างค่าเฉลี่ยของทั้งสองกลุ่มนี้มีนัยสำคัญทางสถิติ
นอกจากนี้เรายังสามารถเห็นภาพช่วงความเชื่อมั่น 95% ที่เกิดจากการทดสอบ Tukey โดยใช้ฟังก์ชัน plot() ใน R:
plot(TukeyHSD(anova_model, conf.level=.95))
หากช่วงเวลามีศูนย์ แสดงว่าความแตกต่างระหว่างค่าเฉลี่ยกลุ่มไม่มีนัยสำคัญทางสถิติ ในตัวอย่างข้างต้น ความแตกต่างสำหรับ BA และ CB ไม่มีนัยสำคัญทางสถิติ แต่ความแตกต่างสำหรับการเปรียบเทียบแบบคู่อีกสี่รายการนั้นมีนัยสำคัญทางสถิติ
วิธีการของโฮล์ม
การทดสอบหลังการทดสอบอีกอย่างหนึ่งที่เราสามารถทำได้คือวิธีของโฮล์ม โดยทั่วไปการทดสอบนี้ถือว่าอนุรักษ์นิยมมากกว่าการทดสอบ Tukey
เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อรันเมธอดของ Holm สำหรับการเปรียบเทียบแบบหลายคู่:
#perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm")
# Pairwise comparisons using t tests with pooled SD
#
#data: data_long$amount and data_long$group
#
#ABC
#B 0.20099 - -
#C 0.00079 0.02108 -
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm
การทดสอบนี้ให้ตารางค่า p สำหรับการเปรียบเทียบแต่ละคู่ ตัวอย่างเช่น ค่า p สำหรับความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม A และกลุ่ม B คือ 0.20099
หากคุณเปรียบเทียบค่า p จากการทดสอบนี้กับค่า p จากการทดสอบของ Tukey คุณจะสังเกตเห็นว่าการเปรียบเทียบแบบคู่แต่ละครั้งนำไปสู่ข้อสรุปเดียวกัน ยกเว้นความแตกต่างระหว่างกลุ่ม C และ D ค่า p -ค่าสำหรับความแตกต่างนี้คือ 0.0505 ในการทดสอบของ Tukey เทียบกับ 0.02108 ในวิธีของ Holm
ดังนั้น เมื่อใช้การทดสอบของทูคีย์ เราจึงสรุปได้ว่าความแตกต่างระหว่างกลุ่ม C และกลุ่ม D ไม่มีนัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 แต่เมื่อใช้วิธีของโฮล์ม เราสรุปได้ว่าความแตกต่างระหว่างกลุ่ม C และกลุ่ม D มี นัยสำคัญทางสถิติ
โดยทั่วไปค่า p ที่สร้างโดยวิธีของโฮล์มมักจะต่ำกว่าค่าที่สร้างโดยการทดสอบ Tukey
การแก้ไขของ Dunnett
อีกวิธีหนึ่งที่เราสามารถใช้สำหรับการเปรียบเทียบหลายรายการได้คือการแก้ไข Dunett เราจะใช้แนวทางนี้เมื่อต้องการเปรียบเทียบค่าเฉลี่ยของแต่ละกลุ่มกับค่าเฉลี่ยควบคุม และเราไม่ต้องการเปรียบเทียบวิธีการรักษาระหว่างกัน
ตัวอย่างเช่น การใช้โค้ดด้านล่างนี้ เราจะเปรียบเทียบค่าเฉลี่ยกลุ่มของ B, C และ D กับค่าเฉลี่ยของกลุ่ม A ดังนั้นเราจึงใช้กลุ่ม A เป็นกลุ่มควบคุม และเราไม่สนใจความแตกต่างระหว่างกลุ่ม B, C . และ ดี.
#load multcomp library necessary for using Dunnett's Correction library(multicomp) #convert group variable to factor data_long$group <- as.factor(data_long$group) #fit anova model anova_model <- aov(amount ~ group, data = data_long) #performcomparisons dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett")) #view summary of comparisons summary(dunnet_comparison) #Multiple Comparisons of Means: Dunnett Contrasts # #Fit: aov(formula = amount ~ group, data = data_long) # #Linear Assumptions: #Estimate Std. Error t value Pr(>|t|) #B - A == 0 0.2823 0.2188 1.290 0.432445 #C - A == 0 0.8561 0.2188 3.912 0.000545 *** #D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***
จากค่า p ในเอาต์พุต เราจะเห็นได้ดังนี้:
- ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม B และกลุ่ม A ไม่มี นัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 ค่า p สำหรับการทดสอบนี้คือ 0.4324
- ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม C และกลุ่ม A มี นัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 ค่า p สำหรับการทดสอบนี้คือ 0.0005
- ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม D และกลุ่ม A มี นัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 ค่า p สำหรับการทดสอบนี้คือ 0.00004
ตามที่ระบุไว้ก่อนหน้านี้ แนวทางนี้ถือว่ากลุ่ม A เป็นกลุ่ม “ควบคุม” และเพียงเปรียบเทียบค่าเฉลี่ยของกลุ่มอื่นๆ ทั้งหมดกับกลุ่ม A โปรดทราบว่าไม่มีการทดสอบความแตกต่างระหว่างกลุ่ม B, C และ D เพราะเราไม่ทำการทดสอบ อย่าทำมัน ฉันไม่สนใจความแตกต่างระหว่างกลุ่มเหล่านี้
หมายเหตุเกี่ยวกับการทดสอบหลังการทดสอบและพลังทางสถิติ
การทดสอบภายหลังเฉพาะกิจทำหน้าที่ควบคุมอัตราข้อผิดพลาดของครอบครัวได้อย่างดีเยี่ยม แต่ข้อดีก็คือ การทดสอบจะลดอำนาจทางสถิติของการเปรียบเทียบลง แท้จริงแล้ว วิธีเดียวที่จะลดอัตราข้อผิดพลาดตามครอบครัวคือการใช้ระดับนัยสำคัญที่ต่ำกว่าสำหรับการเปรียบเทียบแต่ละรายการ
ตัวอย่างเช่น เมื่อเราใช้การทดสอบ Tukey สำหรับการเปรียบเทียบแบบคู่ 6 คู่ และเราต้องการรักษาอัตราความผิดพลาดแบบครอบครัวไว้ที่ 0.05 เราควรใช้ระดับนัยสำคัญประมาณ 0.011 สำหรับแต่ละระดับนัยสำคัญแต่ละระดับ ยิ่งเราทำการเปรียบเทียบแบบคู่มากเท่าใด ระดับนัยสำคัญที่เราควรใช้สำหรับระดับนัยสำคัญแต่ละระดับก็จะยิ่งต่ำลงเท่านั้น
ปัญหาคือระดับนัยสำคัญที่ต่ำกว่านั้นสอดคล้องกับอำนาจทางสถิติที่ต่ำกว่า ซึ่งหมายความว่าหากความแตกต่างระหว่างค่าเฉลี่ยกลุ่มมีอยู่จริงในประชากร การศึกษาที่ใช้พลังงานน้อยกว่าก็มีแนวโน้มที่จะตรวจพบได้น้อย
วิธีหนึ่งในการลดผลกระทบของการแลกเปลี่ยนนี้คือการลดจำนวนการเปรียบเทียบแบบคู่ที่เราดำเนินการ ตัวอย่างเช่น ในตัวอย่างก่อนหน้านี้ เราทำการเปรียบเทียบแบบคู่กันหกกลุ่มสำหรับสี่กลุ่มที่แตกต่างกัน อย่างไรก็ตาม ขึ้นอยู่กับความต้องการในการศึกษาของคุณ คุณอาจต้องการเปรียบเทียบเพียงเล็กน้อยเท่านั้น
เมื่อทำการเปรียบเทียบน้อยลง คุณไม่จำเป็นต้องลดอำนาจทางสถิติลงมากนัก
สิ่งสำคัญที่ควรทราบคือ คุณต้องตัดสินใจ ก่อน ดำเนินการ ANOVA ให้แน่ชัดว่ากลุ่มใดที่คุณต้องการทำการเปรียบเทียบ และการทดสอบหลังการทดสอบที่คุณจะใช้เพื่อทำการเปรียบเทียบเหล่านี้ มิฉะนั้น หากคุณเพียงแค่เห็นว่าการทดสอบหลังการทดสอบใดที่ให้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ ก็จะลดความสมบูรณ์ของการศึกษาลง
บทสรุป
ในบทความนี้ เราได้เรียนรู้สิ่งต่อไปนี้:
- ANOVA ใช้เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างค่าเฉลี่ยของกลุ่มอิสระสามกลุ่มขึ้นไปหรือไม่
- หาก ANOVA สร้างค่า p ต่ำกว่าระดับนัยสำคัญของเรา เราสามารถใช้การทดสอบภายหลังเพื่อดูว่าค่าเฉลี่ยของกลุ่มใดแตกต่างกัน
- การทดสอบหลังการทดสอบช่วยให้เราสามารถควบคุมอัตราข้อผิดพลาดต่อตระกูลในขณะที่ทำการเปรียบเทียบแบบคู่หลายรายการ
- ข้อดีข้อเสียของการควบคุมอัตราข้อผิดพลาดแบบครอบครัวนั้นมีอำนาจทางสถิติน้อยกว่า เราสามารถลดผลกระทบของพลังทางสถิติที่ต่ำกว่าได้โดยทำการเปรียบเทียบแบบคู่ให้น้อยลง
- คุณต้องพิจารณาก่อนว่ากลุ่มใดที่คุณต้องการทำการเปรียบเทียบแบบคู่ และการทดสอบหลังการใดที่คุณจะใช้เพื่อดำเนินการดังกล่าว