คู่มือการใช้การทดสอบหลังการทดลองด้วย anova

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 29, 2023 แนะนำ 0 ความคิดเห็น

ANOVA คือการทดสอบทางสถิติที่ใช้ในการพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างค่าเฉลี่ยของกลุ่มอิสระสามกลุ่มขึ้นไปหรือไม่

สมมติฐาน ที่ใช้ในการวิเคราะห์ความแปรปรวนมีดังนี้:

สมมติฐานว่าง (H ₀ ): µ ₁ = µ ₂ = µ ₃ = … = µ _k (ค่าเฉลี่ยของแต่ละกลุ่มเท่ากัน)

สมมติฐานทางเลือก: (ฮา): อย่างน้อยก็มีวิธีการหนึ่งที่แตกต่างจากวิธีอื่นๆ

ถ้า ค่า p ของ ANOVA ต่ำกว่าระดับนัยสำคัญ เราสามารถปฏิเสธสมมติฐานว่างได้และสรุปได้ว่าเรามีหลักฐานเพียงพอที่จะบอกว่าค่าเฉลี่ยของกลุ่มอย่างน้อยหนึ่งรายการแตกต่างจากค่าเฉลี่ยอื่นๆ

อย่างไรก็ตาม นี่ไม่ได้บอกเราว่ากลุ่ม ใด มีความแตกต่างกัน นี่บอกเราว่าค่าเฉลี่ยกลุ่มไม่เท่ากันทั้งหมด

หากต้องการทราบว่ากลุ่มใดมีความแตกต่างกัน เราต้องทำการ ทดสอบหลังการทดสอบ (หรือที่เรียกว่าการทดสอบเปรียบเทียบหลายรายการ) ซึ่งจะช่วยให้เราสำรวจความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มต่างๆ ในขณะที่ควบคุมครอบครัวด้วย . อัตราความผิดพลาดที่สมเหตุสมผล

หมายเหตุทางเทคนิค: สิ่งสำคัญที่ควรทราบก็คือ เราควรทำการทดสอบหลังการทดสอบเฉพาะเมื่อค่า p-value ของ ANOVA มีนัยสำคัญทางสถิติเท่านั้น หากค่า p ไม่มีนัยสำคัญทางสถิติ แสดงว่าค่าเฉลี่ยของกลุ่มทั้งหมดไม่แตกต่างกัน ดังนั้นจึงไม่จำเป็นต้องทำการทดสอบหลังการทดสอบเพื่อพิจารณาว่ากลุ่มใดมีความแตกต่างกัน

อัตราข้อผิดพลาดของครอบครัว

ดังที่ได้กล่าวไว้ก่อนหน้านี้ การทดสอบหลังการทดสอบช่วยให้เราสามารถทดสอบความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มต่างๆ ขณะเดียวกันก็ควบคุม อัตราข้อผิดพลาดต่อตระกูล ด้วย

ใน การทดสอบสมมติฐาน จะมีอัตราความผิดพลาดประเภทที่ 1 อยู่เสมอ ซึ่งกำหนดโดยระดับนัยสำคัญ (อัลฟา) ของเรา และบอกเราถึงความน่าจะเป็นที่จะปฏิเสธสมมติฐานว่างที่เป็นจริง กล่าวอีกนัยหนึ่ง คือความน่าจะเป็นที่จะได้รับ “ผลบวกลวง” กล่าวคือเมื่อเราอ้างว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างกลุ่มต่างๆ ในขณะที่ในความเป็นจริงกลับไม่เป็นเช่นนั้น

เมื่อเราทำการทดสอบสมมติฐาน อัตราความผิดพลาดประเภทที่ 1 จะเท่ากับระดับนัยสำคัญ ซึ่งโดยปกติจะเลือกเป็น 0.01, 0.05 หรือ 0.10 อย่างไรก็ตาม เมื่อเรารันการทดสอบสมมติฐานหลายรายการพร้อมกัน ความน่าจะเป็นที่จะได้ผลบวกลวงจะเพิ่มขึ้น

เช่น ลองจินตนาการว่าเราทอยลูกเต๋า 20 หน้า ความน่าจะเป็นที่ลูกเต๋าจะตกที่ “1” นั้นมีเพียง 5% เท่านั้น แต่ถ้าคุณทอยลูกเต๋าสองลูกพร้อมกัน ความน่าจะเป็นที่ลูกเต๋าตัวใดตัวหนึ่งตกลงบนเลข “1” จะเพิ่มขึ้นเป็น 9.75% หากเราทอยลูกเต๋าห้าลูกพร้อมกัน ความน่าจะเป็นจะเพิ่มขึ้นเป็น 22.6%

ยิ่งเราทอยลูกเต๋ามากเท่าไร ความน่าจะเป็นที่ลูกเต๋าตัวใดตัวหนึ่งจะตกลงที่เลข “1” ก็จะยิ่งสูงขึ้นเท่านั้น ในทำนองเดียวกัน หากเราทำการทดสอบสมมติฐานหลายรายการพร้อมกันโดยใช้ระดับนัยสำคัญที่ 0.05 ความน่าจะเป็นที่เราได้รับผลบวกลวงจะเพิ่มขึ้นเกินเพียง 0.05

การเปรียบเทียบหลายรายการใน ANOVA

เมื่อเราดำเนินการวิเคราะห์ความแปรปรวน เรามักจะเปรียบเทียบสามกลุ่มขึ้นไป ดังนั้นเมื่อเราทำการทดสอบหลังการทดสอบเพื่อสำรวจความแตกต่างระหว่างค่าเฉลี่ยแบบกลุ่ม เราต้องการสำรวจการเปรียบเทียบแบบหลาย คู่

ตัวอย่างเช่น สมมติว่าเรามีสี่กลุ่ม: A, B, C และ D ซึ่งหมายความว่ามีการเปรียบเทียบแบบคู่ทั้งหมดหกกลุ่มที่เราต้องการตรวจสอบด้วยการทดสอบหลังการทดสอบ:

A – B (ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม A และค่าเฉลี่ยของกลุ่ม B)
เครื่องปรับอากาศ
ประกาศ
บี.ซี.
การ์ตูน
ซีดี

หากเรามีมากกว่าสี่กลุ่ม จำนวนการเปรียบเทียบแบบคู่ที่เราอยากจะดำเนินการจะเพิ่มขึ้นอีกเท่านั้น ตารางต่อไปนี้แสดงจำนวนการเปรียบเทียบแบบคู่ที่เกี่ยวข้องกับแต่ละกลุ่ม รวมถึงอัตราข้อผิดพลาดต่อตระกูล:

โปรดทราบว่าอัตราข้อผิดพลาดต่อตระกูลจะเพิ่มขึ้นอย่างรวดเร็วเมื่อจำนวนกลุ่ม (และจำนวนการเปรียบเทียบแบบคู่) เพิ่มขึ้น ในความเป็นจริง เมื่อเราไปถึงหกกลุ่มแล้ว โอกาสที่เราจะได้ผลบวกลวงนั้นมีมากกว่า 50%!

ซึ่งหมายความว่า เราจะมีข้อสงสัยอย่างมากเกี่ยวกับผลลัพธ์ของเราหากเราต้องทำการเปรียบเทียบแบบคู่หลายๆ ครั้ง โดยรู้ว่าอัตราข้อผิดพลาดทางครอบครัวของเรานั้นสูงมาก

โชคดีที่การทดสอบหลังการทดสอบช่วยให้เราสามารถเปรียบเทียบได้หลายรายการระหว่างกลุ่มในขณะที่ควบคุมอัตราข้อผิดพลาดตามกลุ่ม

ตัวอย่าง: การวิเคราะห์ความแปรปรวนแบบทางเดียวพร้อมการทดสอบหลังการทดสอบ

ตัวอย่างต่อไปนี้แสดงวิธีดำเนินการวิเคราะห์ ความแปรปรวนแบบทางเดียว ด้วยการทดสอบหลังการทดสอบ

หมายเหตุ: ตัวอย่างนี้ใช้ภาษาการเขียนโปรแกรม R แต่คุณไม่จำเป็นต้องรู้ R เพื่อทำความเข้าใจผลการทดสอบหรือประเด็นสำคัญ

ขั้นแรก เราจะสร้างชุดข้อมูลที่มีสี่กลุ่ม (A, B, C, D) โดยมีการสังเกต 20 รายการต่อกลุ่ม:

 #make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

# group amount
#1 To 2.796526
#2 A 3.116372
#3 A 3.718560
#4 A 4.724623
#5 A 2.605046
#6 A 4.695169

ต่อไป เราจะทำการวิเคราะห์ความแปรปรวนทางเดียวกับชุดข้อมูล:

 #fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

# Df Sum Sq Mean Sq F value Pr(>F)    
#group 3 25.37 8.458 17.66 8.53e-09 ***
#Residuals 76 36.39 0.479

จากผลลัพธ์ของตาราง ANOVA เราจะเห็นว่าสถิติ F คือ 17.66 และค่า p ที่สอดคล้องกันนั้นน้อยมาก

ซึ่งหมายความว่า เรามีหลักฐานเพียงพอที่จะปฏิเสธสมมติฐานว่างที่ว่าค่าเฉลี่ยกลุ่มทั้งหมดเท่ากัน จากนั้นเราสามารถใช้การทดสอบหลังการทดสอบเพื่อพิจารณาว่าค่าเฉลี่ยของกลุ่มใดที่แตกต่างกัน

เราจะตรวจสอบตัวอย่างการทดสอบหลังการทดสอบต่อไปนี้:

การทดสอบ Tukey – มีประโยชน์เมื่อคุณต้องการทำการเปรียบเทียบแบบคู่ที่เป็นไปได้ทั้งหมด

วิธีของโฮล์ม – การทดสอบแบบอนุรักษ์นิยมมากกว่าการทดสอบแบบทูคีย์เล็กน้อย

การแก้ไขของ Dunnett – มีประโยชน์เมื่อคุณต้องการเปรียบเทียบค่าเฉลี่ยของแต่ละกลุ่มกับค่าเฉลี่ยควบคุม และไม่ต้องการเปรียบเทียบวิธีการรักษาระหว่างกัน

การทดสอบทูกี้

เราสามารถทำการทดสอบ Tukey สำหรับการเปรียบเทียบหลายรายการโดยใช้ฟังก์ชัน R ในตัว TukeyHSD() ดังนี้:

 #perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

โปรดทราบว่าเราระบุว่าระดับความเชื่อมั่นของเราคือ 95% ซึ่งหมายความว่าเราต้องการให้อัตราข้อผิดพลาดต่อตระกูลเป็น 0.05 R ให้ค่าเมตริกสองค่าแก่เราเพื่อเปรียบเทียบความแตกต่างแบบคู่แต่ละค่า:

ช่วงความเชื่อมั่นสำหรับผลต่างเฉลี่ย (กำหนดโดยค่าของ lwr และ upr )
ค่า p ถูกปรับตามผลต่างค่าเฉลี่ย

ช่วงความเชื่อมั่นและค่า p จะนำไปสู่ข้อสรุปเดียวกัน

ตัวอย่างเช่น ช่วงความเชื่อมั่น 95% สำหรับผลต่างค่าเฉลี่ยระหว่างกลุ่ม C และกลุ่ม A คือ (0.2813, 1.4309) และเนื่องจากช่วงความเชื่อมั่นนี้ไม่มีศูนย์ เราจึงทราบว่าความแตกต่างระหว่างค่าเฉลี่ยของทั้งสองกลุ่มนี้มีนัยสำคัญทางสถิติ โดยเฉพาะอย่างยิ่ง เรารู้ว่าความแตกต่างเป็นบวก เนื่องจากขีดจำกัดล่างของช่วงความเชื่อมั่นมีค่ามากกว่าศูนย์

ในทำนองเดียวกัน ค่า p สำหรับผลต่างค่าเฉลี่ยระหว่างกลุ่ม C และกลุ่ม A คือ 0.0011 ซึ่งต่ำกว่าระดับนัยสำคัญของเราที่ 0.05 ซึ่งบ่งชี้ด้วยว่าความแตกต่างระหว่างค่าเฉลี่ยของทั้งสองกลุ่มนี้มีนัยสำคัญทางสถิติ

นอกจากนี้เรายังสามารถเห็นภาพช่วงความเชื่อมั่น 95% ที่เกิดจากการทดสอบ Tukey โดยใช้ฟังก์ชัน plot() ใน R:

 plot(TukeyHSD(anova_model, conf.level=.95))

หากช่วงเวลามีศูนย์ แสดงว่าความแตกต่างระหว่างค่าเฉลี่ยกลุ่มไม่มีนัยสำคัญทางสถิติ ในตัวอย่างข้างต้น ความแตกต่างสำหรับ BA และ CB ไม่มีนัยสำคัญทางสถิติ แต่ความแตกต่างสำหรับการเปรียบเทียบแบบคู่อีกสี่รายการนั้นมีนัยสำคัญทางสถิติ

วิธีการของโฮล์ม

การทดสอบหลังการทดสอบอีกอย่างหนึ่งที่เราสามารถทำได้คือวิธีของโฮล์ม โดยทั่วไปการทดสอบนี้ถือว่าอนุรักษ์นิยมมากกว่าการทดสอบ Tukey

เราสามารถใช้โค้ดต่อไปนี้ใน R เพื่อรันเมธอดของ Holm สำหรับการเปรียบเทียบแบบหลายคู่:

 #perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
# Pairwise comparisons using t tests with pooled SD 
#
#data: data_long$amount and data_long$group 
#
#ABC
#B 0.20099 - -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm

การทดสอบนี้ให้ตารางค่า p สำหรับการเปรียบเทียบแต่ละคู่ ตัวอย่างเช่น ค่า p สำหรับความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม A และกลุ่ม B คือ 0.20099

หากคุณเปรียบเทียบค่า p จากการทดสอบนี้กับค่า p จากการทดสอบของ Tukey คุณจะสังเกตเห็นว่าการเปรียบเทียบแบบคู่แต่ละครั้งนำไปสู่ข้อสรุปเดียวกัน ยกเว้นความแตกต่างระหว่างกลุ่ม C และ D ค่า p -ค่าสำหรับความแตกต่างนี้คือ 0.0505 ในการทดสอบของ Tukey เทียบกับ 0.02108 ในวิธีของ Holm

ดังนั้น เมื่อใช้การทดสอบของทูคีย์ เราจึงสรุปได้ว่าความแตกต่างระหว่างกลุ่ม C และกลุ่ม D ไม่มีนัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 แต่เมื่อใช้วิธีของโฮล์ม เราสรุปได้ว่าความแตกต่างระหว่างกลุ่ม C และกลุ่ม D มี นัยสำคัญทางสถิติ

โดยทั่วไปค่า p ที่สร้างโดยวิธีของโฮล์มมักจะต่ำกว่าค่าที่สร้างโดยการทดสอบ Tukey

การแก้ไขของ Dunnett

อีกวิธีหนึ่งที่เราสามารถใช้สำหรับการเปรียบเทียบหลายรายการได้คือการแก้ไข Dunett เราจะใช้แนวทางนี้เมื่อต้องการเปรียบเทียบค่าเฉลี่ยของแต่ละกลุ่มกับค่าเฉลี่ยควบคุม และเราไม่ต้องการเปรียบเทียบวิธีการรักษาระหว่างกัน

ตัวอย่างเช่น การใช้โค้ดด้านล่างนี้ เราจะเปรียบเทียบค่าเฉลี่ยกลุ่มของ B, C และ D กับค่าเฉลี่ยของกลุ่ม A ดังนั้นเราจึงใช้กลุ่ม A เป็นกลุ่มควบคุม และเราไม่สนใจความแตกต่างระหว่างกลุ่ม B, C . และ ดี.

 #load multcomp library necessary for using Dunnett's Correction
library(multicomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#performcomparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Assumptions:
#Estimate Std. Error t value Pr(>|t|)    
#B - A == 0 0.2823 0.2188 1.290 0.432445    
#C - A == 0 0.8561 0.2188 3.912 0.000545 ***
#D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***

จากค่า p ในเอาต์พุต เราจะเห็นได้ดังนี้:

ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม B และกลุ่ม A ไม่มี นัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 ค่า p สำหรับการทดสอบนี้คือ 0.4324
ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม C และกลุ่ม A มี นัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 ค่า p สำหรับการทดสอบนี้คือ 0.0005
ความแตกต่างระหว่างค่าเฉลี่ยของกลุ่ม D และกลุ่ม A มี นัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 ค่า p สำหรับการทดสอบนี้คือ 0.00004

ตามที่ระบุไว้ก่อนหน้านี้ แนวทางนี้ถือว่ากลุ่ม A เป็นกลุ่ม “ควบคุม” และเพียงเปรียบเทียบค่าเฉลี่ยของกลุ่มอื่นๆ ทั้งหมดกับกลุ่ม A โปรดทราบว่าไม่มีการทดสอบความแตกต่างระหว่างกลุ่ม B, C และ D เพราะเราไม่ทำการทดสอบ อย่าทำมัน ฉันไม่สนใจความแตกต่างระหว่างกลุ่มเหล่านี้

หมายเหตุเกี่ยวกับการทดสอบหลังการทดสอบและพลังทางสถิติ

การทดสอบภายหลังเฉพาะกิจทำหน้าที่ควบคุมอัตราข้อผิดพลาดของครอบครัวได้อย่างดีเยี่ยม แต่ข้อดีก็คือ การทดสอบจะลดอำนาจทางสถิติของการเปรียบเทียบลง แท้จริงแล้ว วิธีเดียวที่จะลดอัตราข้อผิดพลาดตามครอบครัวคือการใช้ระดับนัยสำคัญที่ต่ำกว่าสำหรับการเปรียบเทียบแต่ละรายการ

ตัวอย่างเช่น เมื่อเราใช้การทดสอบ Tukey สำหรับการเปรียบเทียบแบบคู่ 6 คู่ และเราต้องการรักษาอัตราความผิดพลาดแบบครอบครัวไว้ที่ 0.05 เราควรใช้ระดับนัยสำคัญประมาณ 0.011 สำหรับแต่ละระดับนัยสำคัญแต่ละระดับ ยิ่งเราทำการเปรียบเทียบแบบคู่มากเท่าใด ระดับนัยสำคัญที่เราควรใช้สำหรับระดับนัยสำคัญแต่ละระดับก็จะยิ่งต่ำลงเท่านั้น

ปัญหาคือระดับนัยสำคัญที่ต่ำกว่านั้นสอดคล้องกับอำนาจทางสถิติที่ต่ำกว่า ซึ่งหมายความว่าหากความแตกต่างระหว่างค่าเฉลี่ยกลุ่มมีอยู่จริงในประชากร การศึกษาที่ใช้พลังงานน้อยกว่าก็มีแนวโน้มที่จะตรวจพบได้น้อย

วิธีหนึ่งในการลดผลกระทบของการแลกเปลี่ยนนี้คือการลดจำนวนการเปรียบเทียบแบบคู่ที่เราดำเนินการ ตัวอย่างเช่น ในตัวอย่างก่อนหน้านี้ เราทำการเปรียบเทียบแบบคู่กันหกกลุ่มสำหรับสี่กลุ่มที่แตกต่างกัน อย่างไรก็ตาม ขึ้นอยู่กับความต้องการในการศึกษาของคุณ คุณอาจต้องการเปรียบเทียบเพียงเล็กน้อยเท่านั้น

เมื่อทำการเปรียบเทียบน้อยลง คุณไม่จำเป็นต้องลดอำนาจทางสถิติลงมากนัก

สิ่งสำคัญที่ควรทราบคือ คุณต้องตัดสินใจ ก่อน ดำเนินการ ANOVA ให้แน่ชัดว่ากลุ่มใดที่คุณต้องการทำการเปรียบเทียบ และการทดสอบหลังการทดสอบที่คุณจะใช้เพื่อทำการเปรียบเทียบเหล่านี้ มิฉะนั้น หากคุณเพียงแค่เห็นว่าการทดสอบหลังการทดสอบใดที่ให้ผลลัพธ์ที่มีนัยสำคัญทางสถิติ ก็จะลดความสมบูรณ์ของการศึกษาลง

บทสรุป

ในบทความนี้ เราได้เรียนรู้สิ่งต่อไปนี้:

ANOVA ใช้เพื่อพิจารณาว่ามีความแตกต่างที่มีนัยสำคัญทางสถิติระหว่างค่าเฉลี่ยของกลุ่มอิสระสามกลุ่มขึ้นไปหรือไม่
หาก ANOVA สร้างค่า p ต่ำกว่าระดับนัยสำคัญของเรา เราสามารถใช้การทดสอบภายหลังเพื่อดูว่าค่าเฉลี่ยของกลุ่มใดแตกต่างกัน
การทดสอบหลังการทดสอบช่วยให้เราสามารถควบคุมอัตราข้อผิดพลาดต่อตระกูลในขณะที่ทำการเปรียบเทียบแบบคู่หลายรายการ
ข้อดีข้อเสียของการควบคุมอัตราข้อผิดพลาดแบบครอบครัวนั้นมีอำนาจทางสถิติน้อยกว่า เราสามารถลดผลกระทบของพลังทางสถิติที่ต่ำกว่าได้โดยทำการเปรียบเทียบแบบคู่ให้น้อยลง
คุณต้องพิจารณาก่อนว่ากลุ่มใดที่คุณต้องการทำการเปรียบเทียบแบบคู่ และการทดสอบหลังการใดที่คุณจะใช้เพื่อดำเนินการดังกล่าว

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม