Um guia para usar testes post-hoc com anova
Uma ANOVA é um teste estatístico usado para determinar se existe ou não uma diferença estatisticamente significativa entre as médias de três ou mais grupos independentes.
As suposições usadas em uma ANOVA são as seguintes:
A hipótese nula (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (as médias são iguais para cada grupo)
A hipótese alternativa: (Ha): pelo menos uma das médias é diferente das outras
Se o valor p da ANOVA estiver abaixo do nível de significância, podemos rejeitar a hipótese nula e concluir que temos evidências suficientes para dizer que pelo menos uma das médias do grupo é diferente das demais.
No entanto, isso não nos diz quais grupos são diferentes uns dos outros. Isto simplesmente nos diz que nem todas as médias dos grupos são iguais.
Para saber exatamente quais grupos são diferentes entre si, precisamos realizar um teste post hoc (também conhecido como teste de comparação múltipla), que nos permitirá explorar a diferença entre as médias de múltiplos grupos e, ao mesmo tempo, controlar a família. . taxa de erro razoável.
Nota Técnica: É importante ressaltar que só devemos realizar um teste post hoc quando o valor p da ANOVA for estatisticamente significativo. Se o valor p não for estatisticamente significativo, isso indica que as médias de todos os grupos não são diferentes entre si. Portanto, não há necessidade de realizar um teste post hoc para determinar quais grupos são diferentes entre si.
A taxa de erro familiar
Conforme mencionado anteriormente, os testes post hoc nos permitem testar a diferença entre as médias de vários grupos e, ao mesmo tempo, controlar a taxa de erro por família .
Nos testes de hipóteses , há sempre uma taxa de erro Tipo I, que é definida pelo nosso nível de significância (alfa) e nos diz a probabilidade de rejeitar uma hipótese nula que seja realmente verdadeira. Ou seja, é a probabilidade de obter um “falso positivo”, ou seja, quando afirmamos que existe uma diferença estatisticamente significativa entre os grupos, quando na realidade não é esse o caso.
Quando realizamos testes de hipóteses, a taxa de erro Tipo I é igual ao nível de significância, que geralmente é escolhido como 0,01, 0,05 ou 0,10. No entanto, quando executamos vários testes de hipóteses ao mesmo tempo, a probabilidade de obter um falso positivo aumenta.
Por exemplo, imagine que lançamos um dado de 20 lados. A probabilidade de o dado cair em “1” é de apenas 5%. Mas se você lançar dois dados de uma vez, a probabilidade de um dos dados cair em “1” aumenta para 9,75%. Se lançarmos cinco dados de uma vez, a probabilidade aumenta para 22,6%.
Quanto mais dados lançarmos, maior será a probabilidade de um dos dados cair em “1”. Da mesma forma, se executarmos vários testes de hipóteses ao mesmo tempo usando um nível de significância de 0,05, a probabilidade de obtermos um falso positivo aumenta além de apenas 0,05.
Múltiplas comparações na ANOVA
Quando realizamos uma ANOVA, frequentemente comparamos três ou mais grupos. Portanto, quando realizamos um teste post hoc para explorar a diferença entre as médias dos grupos, queremos explorar múltiplas comparações entre pares .
Por exemplo, digamos que temos quatro grupos: A, B, C e D. Isso significa que há um total de seis comparações de pares que queremos examinar com um teste post hoc:
A – B (a diferença entre a média do grupo A e a média do grupo B)
AC
ANÚNCIO
a.C.
histórias em quadrinhos
CD
Se tivermos mais de quatro grupos, o número de comparações entre pares que desejaremos realizar aumentará ainda mais. A tabela a seguir ilustra o número de comparações aos pares associadas a cada número de grupos, bem como a taxa de erro por família:
Observe que a taxa de erro por família aumenta rapidamente à medida que o número de grupos (e, portanto, o número de comparações aos pares) aumenta. Na verdade, quando atingirmos seis grupos, a probabilidade de obtermos um falso positivo é superior a 50%!
Isto significa que teríamos sérias dúvidas sobre os nossos resultados se tivéssemos que fazer tantas comparações aos pares, sabendo que a nossa taxa de erro familiar é tão elevada.
Felizmente, os testes post-hoc nos permitem fazer múltiplas comparações entre grupos enquanto controlamos a taxa de erro por família.
Exemplo: ANOVA unidirecional com testes post-hoc
O exemplo a seguir ilustra como realizar uma ANOVA unidirecional com testes post hoc.
Observação: este exemplo usa a linguagem de programação R, mas você não precisa conhecer R para compreender os resultados do teste ou as principais conclusões.
Primeiro, criaremos um conjunto de dados contendo quatro grupos (A, B, C, D) com 20 observações por grupo:
#make this example reproducible set.seed(1) #load tidyr library to convert data from wide to long format library(tidyr) #create wide dataset data <- data.frame(A = runif(20, 2, 5), B = runif(20, 3, 5), C = runif(20, 3, 6), D = runif(20, 4, 6)) #convert to long dataset for ANOVA data_long <- gather(data, key = "group", value = "amount", A, B, C, D) #view first six lines of dataset head(data_long) # group amount #1 To 2.796526 #2 A 3.116372 #3 A 3.718560 #4 A 4.724623 #5 A 2.605046 #6 A 4.695169
A seguir, faremos uma ANOVA unidirecional para o conjunto de dados:
#fit anova model anova_model <- aov(amount ~ group, data = data_long) #view summary of anova model summary(anova_model) # Df Sum Sq Mean Sq F value Pr(>F) #group 3 25.37 8.458 17.66 8.53e-09 *** #Residuals 76 36.39 0.479
A partir do resultado da tabela ANOVA, vemos que a estatística F é 17,66 e o valor p correspondente é extremamente pequeno.
Isto significa que temos evidências suficientes para rejeitar a hipótese nula de que todas as médias dos grupos são iguais. Então podemos usar um teste post hoc para determinar quais médias de grupo são diferentes umas das outras.
Analisaremos exemplos dos seguintes testes post hoc:
Teste de Tukey – útil quando você deseja fazer todas as comparações pares possíveis
Método de Holm – um teste um pouco mais conservador que o teste de Tukey
Correção de Dunnett – útil quando você deseja comparar a média de cada grupo com uma média de controle e não deseja comparar as médias do tratamento entre si.
Teste de Tukey
Podemos realizar o teste de Tukey para comparações múltiplas usando a função R integrada TukeyHSD() da seguinte forma:
#perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95)
#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371
Observe que especificamos que nosso nível de confiança é de 95%, o que significa que queremos que nossa taxa de erro por família seja de 0,05. R nos dá duas métricas para comparar cada diferença entre pares:
- Intervalo de confiança para a diferença média (dado pelos valores de lwr e upr )
- Valor de p ajustado pela diferença média
O intervalo de confiança e o valor p levarão à mesma conclusão.
Por exemplo, o intervalo de confiança de 95% para a diferença média entre o grupo C e o grupo A é (0,2813, 1,4309), e como este intervalo não contém zero, sabemos que a diferença entre as médias destes dois grupos é estatisticamente significativa. Em particular, sabemos que a diferença é positiva, uma vez que o limite inferior do intervalo de confiança é maior que zero.
Da mesma forma, o valor p para a diferença média entre o Grupo C e o Grupo A é 0,0011, que é inferior ao nosso nível de significância de 0,05, o que também indica que a diferença entre as médias destes dois grupos é estatisticamente significativa.
Também podemos visualizar os intervalos de confiança de 95% resultantes do teste de Tukey usando a função plot() em R:
plot(TukeyHSD(anova_model, conf.level=.95))
Se o intervalo contiver zero, sabemos que a diferença entre as médias do grupo não é estatisticamente significativa. No exemplo acima, as diferenças para BA e CB não são estatisticamente significativas, mas as diferenças para as outras quatro comparações aos pares são estatisticamente significativas.
Método de Holm
Outro teste post hoc que podemos realizar é o método de Holm. Este teste é geralmente considerado mais conservador que o teste de Tukey.
Podemos usar o seguinte código em R para executar o método de Holm para múltiplas comparações entre pares:
#perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm")
# Pairwise comparisons using t tests with pooled SD
#
#data: data_long$amount and data_long$group
#
#ABC
#B 0.20099 - -
#C 0.00079 0.02108 -
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm
Este teste fornece uma grade de valores p para cada comparação aos pares. Por exemplo, o valor p para a diferença entre a média do grupo A e do grupo B é 0,20099.
Se você comparar os valores p deste teste com os valores p do teste de Tukey, notará que cada uma das comparações aos pares leva à mesma conclusão, exceto pela diferença entre os grupos C e D. O p -o valor para esta diferença foi 0,0505 no teste de Tukey comparado a 0,02108 no método de Holm.
Assim, utilizando o teste de Tukey, concluímos que a diferença entre o grupo C e o grupo D não foi estatisticamente significativa ao nível de significância de 0,05, mas utilizando o método de Holm, concluímos que a diferença entre o grupo C e o grupo D foi estatisticamente significativa.
Em geral, os valores de p produzidos pelo método de Holm tendem a ser inferiores aos produzidos pelo teste de Tukey.
Correção de Dunnett
Outro método que podemos usar para comparações múltiplas é a correção de Dunett. Usaríamos esta abordagem quando quisermos comparar as médias de cada grupo com uma média de controle e não quisermos comparar as médias do tratamento entre si.
Por exemplo, usando o código abaixo, comparamos as médias dos grupos B, C e D com as do grupo A. Assim, usamos o grupo A como grupo de controle e não estamos interessados nas diferenças entre os grupos B, C ., e D.
#load multcomp library necessary for using Dunnett's Correction library(multicomp) #convert group variable to factor data_long$group <- as.factor(data_long$group) #fit anova model anova_model <- aov(amount ~ group, data = data_long) #performcomparisons dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett")) #view summary of comparisons summary(dunnet_comparison) #Multiple Comparisons of Means: Dunnett Contrasts # #Fit: aov(formula = amount ~ group, data = data_long) # #Linear Assumptions: #Estimate Std. Error t value Pr(>|t|) #B - A == 0 0.2823 0.2188 1.290 0.432445 #C - A == 0 0.8561 0.2188 3.912 0.000545 *** #D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***
A partir dos valores p na saída, podemos ver o seguinte:
- A diferença entre a média do grupo B e a do grupo A não é estatisticamente significativa ao nível de significância de 0,05. O valor p para este teste é 0,4324 .
- A diferença entre a média do Grupo C e do Grupo A é estatisticamente significativa ao nível de significância de 0,05. O valor p para este teste é 0,0005 .
- A diferença entre a média do Grupo D e do Grupo A é estatisticamente significativa ao nível de significância de 0,05. O valor p para este teste é 0,00004 .
Conforme observado anteriormente, esta abordagem trata o Grupo A como o grupo “controle” e simplesmente compara a média de todos os outros grupos com a do Grupo A. Observe que nenhum teste é realizado para diferenças entre os grupos B, C e D porque não não faça isso. Não estou interessado nas diferenças entre esses grupos.
Uma nota sobre testes post-hoc e poder estatístico
Os testes post hoc fazem um excelente trabalho no controle da taxa de erro familiar, mas a desvantagem é que eles reduzem o poder estatístico das comparações. Na verdade, a única forma de reduzir a taxa de erro familiar é utilizar um nível de significância mais baixo para todas as comparações individuais.
Por exemplo, quando usamos o teste de Tukey para seis comparações pareadas e queremos manter uma taxa de erro familiar de 0,05, devemos usar um nível de significância de aproximadamente 0,011 para cada nível de significância individual. Quanto mais comparações aos pares fizermos, menor será o nível de significância que devemos usar para cada nível de significância individual.
O problema é que níveis de significância mais baixos correspondem a um poder estatístico mais baixo. Isto significa que se realmente existir uma diferença entre as médias dos grupos na população, é menos provável que um estudo com menor potência a detecte.
Uma maneira de reduzir os efeitos dessa compensação é simplesmente reduzir o número de comparações entre pares que realizamos. Por exemplo, nos exemplos anteriores, realizamos seis comparações aos pares para os quatro grupos diferentes. No entanto, dependendo das necessidades do seu estudo, você pode querer fazer apenas algumas comparações.
Ao fazer menos comparações, você não precisa reduzir tanto o poder estatístico.
É importante observar que você deve determinar antes de realizar a ANOVA exatamente quais grupos deseja fazer comparações e qual teste post hoc usará para fazer essas comparações. Caso contrário, se você simplesmente observar qual teste post hoc produz resultados estatisticamente significativos, isso reduzirá a integridade do estudo.
Conclusão
Neste artigo, aprendemos o seguinte:
- Uma ANOVA é usada para determinar se existe ou não uma diferença estatisticamente significativa entre as médias de três ou mais grupos independentes.
- Se uma ANOVA produzir um valor p abaixo do nosso nível de significância, podemos usar testes post hoc para descobrir quais médias de grupo diferem umas das outras.
- Os testes post-hoc nos permitem controlar a taxa de erro por família enquanto realizamos várias comparações aos pares.
- A desvantagem de controlar a taxa de erro familiar é menos poder estatístico. Podemos reduzir os efeitos do menor poder estatístico fazendo menos comparações entre pares.
- Você deve primeiro determinar em quais grupos deseja realizar comparações de pares e qual teste post hoc usará para fazer isso.