Panduan menggunakan pengujian post-hoc dengan anova


ANOVA adalah uji statistik yang digunakan untuk menentukan apakah terdapat perbedaan yang signifikan secara statistik antara rata-rata tiga atau lebih kelompok independen.

Asumsi yang digunakan dalam ANOVA adalah sebagai berikut:

Hipotesis nol (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (rata-ratanya sama untuk setiap kelompok)

Hipotesis alternatif: (Ha): setidaknya salah satu mean berbeda dengan mean lainnya

Jika nilai p ANOVA berada di bawah tingkat signifikansi, kita dapat menolak hipotesis nol dan menyimpulkan bahwa kita memiliki cukup bukti untuk mengatakan bahwa setidaknya salah satu mean kelompok berbeda dari mean kelompok lainnya.

Namun, hal ini tidak memberi tahu kita kelompok mana yang berbeda satu sama lain. Hal ini menunjukkan kepada kita bahwa tidak semua rata-rata kelompok adalah sama.

Untuk mengetahui dengan pasti kelompok mana yang berbeda satu sama lain, kita perlu melakukan tes post hoc (juga dikenal sebagai tes perbandingan berganda), yang memungkinkan kita mengeksplorasi perbedaan antara rata-rata beberapa kelompok sekaligus mengendalikan keluarga. . tingkat kesalahan yang wajar.

Catatan Teknis: Penting untuk dicatat bahwa kita hanya boleh melakukan uji post hoc ketika nilai p ANOVA signifikan secara statistik. Jika nilai p tidak signifikan secara statistik, hal ini menunjukkan bahwa rata-rata semua kelompok tidak berbeda satu sama lain. Oleh karena itu, tidak perlu dilakukan post hoc test untuk mengetahui kelompok mana yang berbeda satu sama lain.

Tingkat kesalahan keluarga

Seperti disebutkan sebelumnya, tes post hoc memungkinkan kita menguji perbedaan rata-rata beberapa kelompok sekaligus mengontrol tingkat kesalahan per keluarga .

Dalam pengujian hipotesis , selalu ada tingkat kesalahan Tipe I, yang ditentukan oleh tingkat signifikansi (alfa) dan memberi tahu kita kemungkinan menolak hipotesis nol yang sebenarnya benar. Dengan kata lain, ini adalah kemungkinan memperoleh “positif palsu”, yaitu ketika kita mengklaim bahwa terdapat perbedaan yang signifikan secara statistik antara kelompok-kelompok tersebut, padahal kenyataannya tidak demikian.

Saat kita melakukan pengujian hipotesis, tingkat kesalahan Tipe I sama dengan tingkat signifikansi, yang biasanya dipilih sebesar 0,01, 0,05, atau 0,10. Namun, ketika kita menjalankan beberapa uji hipotesis sekaligus, kemungkinan mendapatkan hasil positif palsu meningkat.

Misalnya, bayangkan kita melempar sebuah dadu bersisi 20. Peluang munculnya dadu pada angka “1” hanya 5%. Namun jika Anda melempar dua dadu sekaligus, kemungkinan salah satu dadu mendarat di angka “1” meningkat menjadi 9,75%. Jika kita melempar lima dadu sekaligus, probabilitasnya meningkat menjadi 22,6%.

Semakin banyak dadu yang kita lempar, semakin tinggi kemungkinan salah satu dadu mendarat di angka “1”. Demikian pula, jika kita menjalankan beberapa uji hipotesis sekaligus menggunakan tingkat signifikansi 0,05, kemungkinan kita mendapatkan hasil positif palsu akan meningkat melebihi 0,05 saja.

Beberapa perbandingan di ANOVA

Saat kami melakukan ANOVA, kami sering membandingkan tiga kelompok atau lebih. Jadi ketika kita melakukan tes post hoc untuk mengeksplorasi perbedaan antara rata-rata kelompok, kita ingin mengeksplorasi beberapa perbandingan berpasangan .

Misalnya, kita mempunyai empat kelompok: A, B, C, dan D. Artinya, ada total enam perbandingan berpasangan yang ingin kita uji dengan uji post hoc:

A – B (selisih rata-rata kelompok A dengan rata-rata kelompok B)
AC
PENGUMUMAN
SM
komik
CD

Jika kita mempunyai lebih dari empat kelompok, jumlah perbandingan berpasangan yang ingin kita lakukan akan semakin bertambah. Tabel berikut menggambarkan jumlah perbandingan berpasangan yang terkait dengan setiap jumlah kelompok serta tingkat kesalahan per keluarga:

Perhatikan bahwa tingkat kesalahan per keluarga meningkat dengan cepat seiring dengan meningkatnya jumlah kelompok (dan juga jumlah perbandingan berpasangan). Faktanya, setelah kita mencapai enam kelompok, kemungkinan kita mendapatkan hasil positif palsu sebenarnya lebih dari 50%!

Ini berarti bahwa kami akan sangat meragukan hasil kami jika kami harus melakukan begitu banyak perbandingan berpasangan, karena mengetahui bahwa tingkat kesalahan kekeluargaan kami sangat tinggi.

Untungnya, pengujian post-hoc memungkinkan kami membuat beberapa perbandingan antar kelompok sambil mengontrol tingkat kesalahan berdasarkan keluarga.

Contoh: ANOVA satu arah dengan uji post-hoc

Contoh berikut mengilustrasikan bagaimana melakukan ANOVA satu arah dengan tes post hoc.

Catatan: Contoh ini menggunakan bahasa pemrograman R, tetapi Anda tidak perlu mengetahui R untuk memahami hasil tes atau kesimpulan utama.

Pertama, kita akan membuat dataset yang berisi empat grup (A, B, C, D) dengan 20 observasi per grup:

 #make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

# group amount
#1 To 2.796526
#2 A 3.116372
#3 A 3.718560
#4 A 4.724623
#5 A 2.605046
#6 A 4.695169

Selanjutnya kita akan melakukan ANOVA satu arah pada dataset:

 #fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

# Df Sum Sq Mean Sq F value Pr(>F)    
#group 3 25.37 8.458 17.66 8.53e-09 ***
#Residuals 76 36.39 0.479            

Dari hasil tabel ANOVA, kita melihat bahwa statistik F adalah 17,66 dan nilai p yang sesuai sangat kecil.

Ini berarti bahwa kita mempunyai cukup bukti untuk menolak hipotesis nol yang menyatakan bahwa semua rata-rata kelompok adalah sama. Kemudian kita dapat menggunakan tes post hoc untuk menentukan mean kelompok mana yang berbeda satu sama lain.

Kami akan meninjau contoh tes post hoc berikut:

Tes Tukey – berguna ketika Anda ingin membuat semua kemungkinan perbandingan berpasangan

Metode Holm – tes yang sedikit lebih konservatif dibandingkan tes Tukey

Koreksi Dunnett – berguna ketika Anda ingin membandingkan rata-rata setiap kelompok dengan rata-rata kontrol dan tidak ingin membandingkan rata-rata perlakuan satu sama lain.

Tes Tukey

Kita dapat melakukan pengujian Tukey untuk beberapa perbandingan menggunakan fungsi R bawaan TukeyHSD() sebagai berikut:

 #perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

Perhatikan bahwa kami menetapkan bahwa tingkat kepercayaan kami adalah 95%, yang berarti kami ingin tingkat kesalahan per keluarga menjadi 0,05. R memberi kita dua metrik untuk membandingkan setiap perbedaan berpasangan:

  • Interval kepercayaan untuk perbedaan rata-rata (diberikan oleh nilai lwr dan upr )
  • nilai p disesuaikan dengan perbedaan rata-rata

Interval kepercayaan dan nilai p akan menghasilkan kesimpulan yang sama.

Misalnya, interval kepercayaan 95% untuk perbedaan rata-rata antara kelompok C dan kelompok A adalah (0,2813, 1,4309), dan karena interval ini tidak mengandung nol, kita tahu bahwa perbedaan antara rata-rata kedua kelompok ini signifikan secara statistik. Secara khusus, kita mengetahui bahwa selisihnya positif, karena batas bawah selang kepercayaan lebih besar dari nol.

Demikian pula, nilai p untuk perbedaan rata-rata antara Grup C dan Grup A adalah 0,0011, lebih rendah dari tingkat signifikansi kami yaitu 0,05, yang juga menunjukkan bahwa perbedaan antara rata-rata kedua kelompok ini signifikan secara statistik.

Kita juga dapat memvisualisasikan interval kepercayaan 95% yang dihasilkan dari pengujian Tukey menggunakan fungsi plot() di R:

 plot(TukeyHSD(anova_model, conf.level=.95))

Jika intervalnya berisi nol, maka kita tahu bahwa perbedaan rata-rata antar kelompok tidak signifikan secara statistik. Pada contoh di atas, perbedaan BA dan CB tidak signifikan secara statistik, namun perbedaan empat perbandingan berpasangan lainnya signifikan secara statistik.

metode Holm

Tes post hoc lain yang dapat kita lakukan adalah metode Holm. Tes ini umumnya dianggap lebih konservatif dibandingkan tes Tukey.

Kita dapat menggunakan kode berikut di R untuk menjalankan metode Holm untuk beberapa perbandingan berpasangan:

 #perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
# Pairwise comparisons using t tests with pooled SD 
#
#data: data_long$amount and data_long$group 
#
#ABC
#B 0.20099 - -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm

Tes ini memberikan grid nilai p untuk setiap perbandingan berpasangan. Misalnya, nilai p selisih rata-rata kelompok A dan kelompok B adalah 0,20099.

Jika Anda membandingkan nilai p dari pengujian ini dengan nilai p dari uji Tukey, Anda akan melihat bahwa setiap perbandingan berpasangan menghasilkan kesimpulan yang sama, kecuali perbedaan antara kelompok C dan D. Nilai p -nilai perbedaan ini adalah 0,0505 pada uji Tukey dibandingkan dengan 0,02108 pada metode Holm.

Jadi, dengan menggunakan uji Tukey, kami menyimpulkan bahwa perbedaan antara kelompok C dan kelompok D tidak signifikan secara statistik pada tingkat signifikansi 0,05, namun dengan menggunakan metode Holm, kami menyimpulkan bahwa perbedaan antara kelompok C dan kelompok D signifikan secara statistik.

Secara umum nilai p-value yang dihasilkan metode Holm cenderung lebih rendah dibandingkan dengan nilai p-value yang dihasilkan uji Tukey.

Koreksi Dunnett

Metode lain yang dapat kita gunakan untuk beberapa perbandingan adalah koreksi Dunett. Kita akan menggunakan pendekatan ini ketika kita ingin membandingkan rata-rata tiap kelompok dengan rata-rata kontrol dan kita tidak ingin membandingkan rata-rata perlakuan satu sama lain.

Misalnya, dengan menggunakan kode di bawah ini, kita membandingkan rata-rata kelompok B, C, dan D dengan kelompok A. Jadi, kita menggunakan kelompok A sebagai kelompok kontrol dan kita tidak tertarik pada perbedaan antara kelompok B, C. ., dan D.

 #load multcomp library necessary for using Dunnett's Correction
library(multicomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#performcomparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Assumptions:
#Estimate Std. Error t value Pr(>|t|)    
#B - A == 0 0.2823 0.2188 1.290 0.432445    
#C - A == 0 0.8561 0.2188 3.912 0.000545 ***
#D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***

Dari nilai p pada output, kita dapat melihat hal berikut:

  • Perbedaan antara rata-rata kelompok B dan kelompok A tidak signifikan secara statistik pada tingkat signifikansi 0,05. Nilai p untuk tes ini adalah 0,4324 .
  • Perbedaan antara rata-rata Grup C dan Grup A signifikan secara statistik pada tingkat signifikansi 0,05. Nilai p untuk tes ini adalah 0,0005 .
  • Perbedaan antara rata-rata Grup D dan Grup A signifikan secara statistik pada tingkat signifikansi 0,05. Nilai p untuk tes ini adalah 0,00004 .

Seperti disebutkan sebelumnya, pendekatan ini memperlakukan Grup A sebagai kelompok “kontrol” dan hanya membandingkan rata-rata semua kelompok lain dengan Grup A. Perhatikan bahwa tidak ada pengujian yang dilakukan untuk mengetahui perbedaan antara kelompok B, C, dan D karena kami tidak melakukan pengujian apa pun. tidak melakukannya. Saya tidak tertarik dengan perbedaan antara kelompok-kelompok ini.

Catatan tentang pengujian post-hoc dan kekuatan statistik

Tes post hoc melakukan pekerjaan yang sangat baik dalam mengendalikan tingkat kesalahan keluarga, namun kerugiannya adalah tes tersebut mengurangi kekuatan statistik perbandingan. Memang benar, satu-satunya cara untuk mengurangi tingkat kesalahan berdasarkan keluarga adalah dengan menggunakan tingkat signifikansi yang lebih rendah untuk semua perbandingan individu.

Misalnya, ketika kita menggunakan uji Tukey untuk enam perbandingan berpasangan dan kita ingin mempertahankan tingkat kesalahan kekeluargaan sebesar 0,05, kita harus menggunakan tingkat signifikansi sekitar 0,011 untuk setiap tingkat signifikansi individual. Semakin banyak perbandingan berpasangan yang kita buat, semakin rendah tingkat signifikansi yang harus kita gunakan untuk setiap tingkat signifikansi individual.

Masalahnya adalah tingkat signifikansi yang lebih rendah menunjukkan kekuatan statistik yang lebih rendah. Artinya, jika memang ada perbedaan antar rata-rata kelompok dalam suatu populasi, maka penelitian yang kurang berdaya akan kecil kemungkinannya untuk mendeteksinya.

Salah satu cara untuk mengurangi dampak trade-off ini adalah dengan mengurangi jumlah perbandingan berpasangan yang kita lakukan. Misalnya, pada contoh sebelumnya, kami melakukan enam perbandingan berpasangan untuk empat kelompok berbeda. Namun, tergantung pada kebutuhan studi Anda, Anda mungkin hanya ingin membuat beberapa perbandingan.

Dengan membuat lebih sedikit perbandingan, Anda tidak perlu terlalu mengurangi kekuatan statistik.

Penting untuk dicatat bahwa sebelum melakukan ANOVA, Anda harus menentukan dengan tepat kelompok mana yang ingin Anda bandingkan dan uji post hoc mana yang akan Anda gunakan untuk membuat perbandingan tersebut. Jika tidak, jika Anda hanya melihat tes post hoc mana yang memberikan hasil signifikan secara statistik, hal ini akan mengurangi integritas penelitian.

Kesimpulan

Dalam artikel ini, kami mempelajari hal-hal berikut:

  • ANOVA digunakan untuk menentukan apakah terdapat perbedaan yang signifikan secara statistik antara rata-rata tiga atau lebih kelompok independen.
  • Jika ANOVA menghasilkan nilai p di bawah tingkat signifikansi, kita dapat menggunakan tes post hoc untuk mengetahui mean kelompok mana yang berbeda satu sama lain.
  • Tes post-hoc memungkinkan kami mengontrol tingkat kesalahan per keluarga sambil melakukan beberapa perbandingan berpasangan.
  • Kerugian dalam mengendalikan tingkat kesalahan berdasarkan keluarga adalah kekuatan statistik yang lebih kecil. Kita dapat mengurangi dampak dari kekuatan statistik yang lebih rendah dengan membuat lebih sedikit perbandingan berpasangan.
  • Anda harus terlebih dahulu menentukan pada kelompok mana Anda ingin melakukan perbandingan berpasangan dan tes post hoc mana yang akan Anda gunakan untuk melakukannya.

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *