Una guida all'utilizzo dei test post-hoc con anova
Un’ANOVA è un test statistico utilizzato per determinare se esiste o meno una differenza statisticamente significativa tra le medie di tre o più gruppi indipendenti.
Le ipotesi utilizzate in un’ANOVA sono le seguenti:
Ipotesi nulla (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (le medie sono uguali per ciascun gruppo)
Ipotesi alternativa: (Ha): almeno una delle medie è diversa dalle altre
Se il valore p dell’ANOVA è inferiore al livello di significatività, possiamo rifiutare l’ipotesi nulla e concludere che abbiamo prove sufficienti per affermare che almeno una delle medie del gruppo è diversa dalle altre.
Tuttavia, questo non ci dice quali gruppi siano diversi gli uni dagli altri. Questo ci dice semplicemente che non tutte le medie dei gruppi sono uguali.
Per sapere esattamente quali gruppi sono diversi tra loro, dobbiamo eseguire un test post hoc (noto anche come test di confronto multiplo), che ci permetterà di esplorare la differenza tra le medie di più gruppi controllando anche la famiglia . tasso di errore ragionevole.
Nota tecnica: è importante notare che dovremmo eseguire un test post hoc solo quando il valore p ANOVA è statisticamente significativo. Se il valore p non è statisticamente significativo, ciò indica che le medie di tutti i gruppi non sono diverse l’una dall’altra. Pertanto, non è necessario eseguire un test post hoc per determinare quali gruppi sono diversi tra loro.
Il tasso di errore familiare
Come accennato in precedenza, i test post hoc ci consentono di testare la differenza tra le medie di più gruppi controllando anche il tasso di errore per famiglia .
Nel test delle ipotesi , c’è sempre un tasso di errore di tipo I, che è definito dal nostro livello di significatività (alfa) e ci dice la probabilità di rifiutare un’ipotesi nulla che sia effettivamente vera. In altre parole, è la probabilità di ottenere un “falso positivo”, cioè quando affermiamo che esiste una differenza statisticamente significativa tra i gruppi, mentre in realtà non è così.
Quando eseguiamo il test delle ipotesi, il tasso di errore di tipo I è uguale al livello di significatività, che solitamente viene scelto tra 0,01, 0,05 o 0,10. Tuttavia, quando eseguiamo più test di ipotesi contemporaneamente, la probabilità di ottenere un falso positivo aumenta.
Ad esempio, immagina di lanciare un dado a 20 facce. La probabilità che il dado cada su “1” è solo del 5%. Ma se si lanciano due dadi contemporaneamente, la probabilità che uno dei dadi esca su “1” aumenta al 9,75%. Se lanciamo cinque dadi contemporaneamente, la probabilità aumenta al 22,6%.
Più dadi lanciamo, maggiore è la probabilità che uno dei dadi si fermi su un “1”. Allo stesso modo, se eseguiamo più test di ipotesi contemporaneamente utilizzando un livello di significatività di 0,05, la probabilità di ottenere un falso positivo aumenta oltre lo 0,05.
Confronti multipli in ANOVA
Quando eseguiamo un’ANOVA, spesso confrontiamo tre o più gruppi. Pertanto, quando eseguiamo un test post hoc per esplorare la differenza tra le medie dei gruppi, vogliamo esplorare più confronti a coppie .
Ad esempio, supponiamo di avere quattro gruppi: A, B, C e D. Ciò significa che ci sono un totale di sei confronti a coppie che vogliamo esaminare con un test post hoc:
A – B (la differenza tra la media del gruppo A e la media del gruppo B)
AC
ANNUNCIO
AVANTI CRISTO.
i fumetti
CD
Se abbiamo più di quattro gruppi, il numero di confronti a coppie che vorremo eseguire non potrà che aumentare ancora di più. La tabella seguente illustra il numero di confronti a coppie associati a ciascun numero di gruppi nonché il tasso di errore per famiglia:
Si noti che il tasso di errore per famiglia aumenta rapidamente all’aumentare del numero di gruppi (e quindi del numero di confronti a coppie). Infatti, una volta raggiunti i sei gruppi, la possibilità di ottenere un falso positivo è superiore al 50%!
Ciò significa che avremmo seri dubbi sui nostri risultati se dovessimo fare così tanti confronti a coppie, sapendo che il nostro tasso di errore familiare è così alto.
Fortunatamente, i test post-hoc ci consentono di effettuare confronti multipli tra gruppi controllando il tasso di errore per famiglia.
Esempio: ANOVA unidirezionale con test post-hoc
Nell’esempio seguente viene illustrato come eseguire un’ANOVA unidirezionale con test post hoc.
Nota: questo esempio utilizza il linguaggio di programmazione R, ma non è necessario conoscere R per comprendere i risultati del test o i punti chiave.
Innanzitutto, creeremo un set di dati contenente quattro gruppi (A, B, C, D) con 20 osservazioni per gruppo:
#make this example reproducible set.seed(1) #load tidyr library to convert data from wide to long format library(tidyr) #create wide dataset data <- data.frame(A = runif(20, 2, 5), B = runif(20, 3, 5), C = runif(20, 3, 6), D = runif(20, 4, 6)) #convert to long dataset for ANOVA data_long <- gather(data, key = "group", value = "amount", A, B, C, D) #view first six lines of dataset head(data_long) # group amount #1 To 2.796526 #2 A 3.116372 #3 A 3.718560 #4 A 4.724623 #5 A 2.605046 #6 A 4.695169
Successivamente, eseguiremo un’ANOVA unidirezionale sul set di dati:
#fit anova model anova_model <- aov(amount ~ group, data = data_long) #view summary of anova model summary(anova_model) # Df Sum Sq Mean Sq F value Pr(>F) #group 3 25.37 8.458 17.66 8.53e-09 *** #Residuals 76 36.39 0.479
Dal risultato della tabella ANOVA, vediamo che la statistica F è 17,66 e il valore p corrispondente è estremamente piccolo.
Ciò significa che abbiamo prove sufficienti per rifiutare l’ipotesi nulla secondo cui tutte le medie dei gruppi sono uguali. Quindi possiamo utilizzare un test post hoc per determinare quali medie di gruppo sono diverse l’una dall’altra.
Esamineremo esempi dei seguenti test post hoc:
Test di Tukey – utile quando vuoi fare tutti i possibili confronti a coppie
Il metodo di Holm : un test leggermente più conservativo rispetto al test di Tukey
Correzione di Dunnett : utile quando si desidera confrontare la media di ciascun gruppo con una media di controllo e non si desidera confrontare tra loro le medie del trattamento.
Prova di tacchino
Possiamo eseguire il test di Tukey per confronti multipli utilizzando la funzione R integrata TukeyHSD() come segue:
#perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95)
#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371
Tieni presente che abbiamo specificato che il nostro livello di confidenza è del 95%, il che significa che vogliamo che il nostro tasso di errore per famiglia sia 0,05. R ci fornisce due parametri per confrontare ciascuna differenza a coppie:
- Intervallo di confidenza per la differenza media (dato dai valori di lwr e upr )
- Valore p aggiustato per la differenza media
L’intervallo di confidenza e il valore p porteranno alla stessa conclusione.
Ad esempio, l’intervallo di confidenza al 95% per la differenza media tra il gruppo C e il gruppo A è (0,2813, 1,4309) e poiché questo intervallo non contiene zero, sappiamo che la differenza tra le medie di questi due gruppi è statisticamente significativa. In particolare, sappiamo che la differenza è positiva, poiché il limite inferiore dell’intervallo di confidenza è maggiore di zero.
Allo stesso modo, il valore p per la differenza media tra il Gruppo C e il Gruppo A è 0,0011, che è inferiore al nostro livello di significatività di 0,05, il che indica anche che la differenza tra le medie di questi due gruppi è statisticamente significativa.
Possiamo anche visualizzare gli intervalli di confidenza al 95% risultanti dal test di Tukey utilizzando la funzione plot() in R:
plot(TukeyHSD(anova_model, conf.level=.95))
Se l’intervallo contiene zero, allora sappiamo che la differenza tra le medie del gruppo non è statisticamente significativa. Nell’esempio precedente, le differenze per BA e CB non sono statisticamente significative, ma le differenze per gli altri quattro confronti a coppie sono statisticamente significative.
Il metodo di Holm
Un altro test post hoc che possiamo eseguire è il metodo di Holm. Questo test è generalmente considerato più conservativo del test di Tukey.
Possiamo utilizzare il seguente codice in R per eseguire il metodo di Holm per confronti multipli a coppie:
#perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm")
# Pairwise comparisons using t tests with pooled SD
#
#data: data_long$amount and data_long$group
#
#ABC
#B 0.20099 - -
#C 0.00079 0.02108 -
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm
Questo test fornisce una griglia di valori p per ogni confronto a coppie. Ad esempio, il valore p per la differenza tra la media del gruppo A e del gruppo B è 0,20099.
Se confronti i valori p di questo test con i valori p del test di Tukey, noterai che ciascuno dei confronti a coppie porta alla stessa conclusione, ad eccezione della differenza tra i gruppi C e D. Il p Il valore di questa differenza era 0,0505 nel test di Tukey rispetto a 0,02108 nel metodo di Holm.
Pertanto, utilizzando il test di Tukey, abbiamo concluso che la differenza tra il gruppo C e il gruppo D non era statisticamente significativa al livello di significatività di 0,05, ma utilizzando il metodo di Holm, abbiamo concluso che la differenza tra il gruppo C e il gruppo D era statisticamente significativa.
In generale, i valori p prodotti dal metodo di Holm tendono ad essere inferiori a quelli prodotti dal test di Tukey.
La correzione di Dunnett
Un altro metodo che possiamo utilizzare per confronti multipli è la correzione Dunett. Utilizzeremo questo approccio quando vogliamo confrontare le medie di ciascun gruppo con una media di controllo e non vogliamo confrontare tra loro le medie del trattamento.
Ad esempio, utilizzando il codice seguente, confrontiamo le medie del gruppo di B, C e D con quelle del gruppo A. Pertanto, utilizziamo il gruppo A come gruppo di controllo e non siamo interessati alle differenze tra i gruppi B, C ., e D.
#load multcomp library necessary for using Dunnett's Correction library(multicomp) #convert group variable to factor data_long$group <- as.factor(data_long$group) #fit anova model anova_model <- aov(amount ~ group, data = data_long) #performcomparisons dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett")) #view summary of comparisons summary(dunnet_comparison) #Multiple Comparisons of Means: Dunnett Contrasts # #Fit: aov(formula = amount ~ group, data = data_long) # #Linear Assumptions: #Estimate Std. Error t value Pr(>|t|) #B - A == 0 0.2823 0.2188 1.290 0.432445 #C - A == 0 0.8561 0.2188 3.912 0.000545 *** #D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***
Dai valori p nell’output, possiamo vedere quanto segue:
- La differenza tra la media del gruppo B e quella del gruppo A non è statisticamente significativa al livello di significatività di 0,05. Il valore p per questo test è 0,4324 .
- La differenza tra la media del Gruppo C e del Gruppo A è statisticamente significativa ad un livello di significatività di 0,05. Il valore p per questo test è 0,0005 .
- La differenza tra la media del Gruppo D e del Gruppo A è statisticamente significativa ad un livello di significatività di 0,05. Il valore p per questo test è 0,00004 .
Come notato in precedenza, questo approccio tratta il Gruppo A come il gruppo “di controllo” e confronta semplicemente la media di tutti gli altri gruppi con quella del Gruppo A. Si noti che non vengono eseguiti test per le differenze tra i gruppi B, C e D perché non non farlo. Non mi interessano le differenze tra questi gruppi.
Una nota sui test post-hoc e sul potere statistico
I test post hoc svolgono un ottimo lavoro nel controllare il tasso di errore familiare, ma il compromesso è che riducono il potere statistico dei confronti. In effetti, l’unico modo per ridurre il tasso di errore a livello familiare è utilizzare un livello di significatività più basso per tutti i confronti individuali.
Ad esempio, quando utilizziamo il test di Tukey per sei confronti a coppie e vogliamo mantenere un tasso di errore familiare di 0,05, dovremmo utilizzare un livello di significatività di circa 0,011 per ciascun livello di significatività individuale. Maggiore è il numero di confronti a coppie che effettuiamo, minore sarà il livello di significatività da utilizzare per ciascun livello di significatività individuale.
Il problema è che livelli di significatività più bassi corrispondono a un potere statistico inferiore. Ciò significa che se esiste effettivamente una differenza tra le medie dei gruppi nella popolazione, è meno probabile che uno studio meno approfondito la rilevi.
Un modo per ridurre gli effetti di questo compromesso è semplicemente ridurre il numero di confronti a coppie che eseguiamo. Ad esempio, negli esempi precedenti abbiamo eseguito sei confronti a coppie per i quattro diversi gruppi. Tuttavia, a seconda delle esigenze del tuo studio, potresti voler fare solo alcuni confronti.
Effettuando meno confronti non è necessario ridurre di molto la potenza statistica.
È importante notare che è necessario determinare prima di eseguire l’ANOVA esattamente quali gruppi si desidera effettuare i confronti e quale test post hoc utilizzare per effettuare questi confronti. Altrimenti, vedere semplicemente quale test post hoc produce risultati statisticamente significativi, riduce l’integrità dello studio.
Conclusione
In questo articolo abbiamo imparato le seguenti cose:
- Un’ANOVA viene utilizzata per determinare se esiste o meno una differenza statisticamente significativa tra le medie di tre o più gruppi indipendenti.
- Se un’ANOVA produce un valore p inferiore al nostro livello di significatività, possiamo utilizzare test post hoc per scoprire quali medie di gruppo differiscono l’una dall’altra.
- I test post-hoc ci consentono di controllare il tasso di errore per famiglia eseguendo diversi confronti a coppie.
- Il compromesso nel controllare il tasso di errore a livello familiare è una minore potenza statistica. Possiamo ridurre gli effetti di un potere statistico inferiore effettuando meno confronti a coppie.
- Devi prima determinare su quali gruppi vuoi eseguire i confronti a coppie e quale test post hoc utilizzerai per farlo.