Uma explicação simples de importância estatística versus importância prática
Uma hipótese estatística é uma suposição sobre um parâmetro populacional . Por exemplo, podemos supor que a altura média de um homem em um determinado município é de 68 polegadas. A hipótese relativa à altura é a hipótese estatística e a verdadeira altura média de um homem nos Estados Unidos é o parâmetro populacional .
Um teste de hipótese é um teste estatístico formal que usamos para rejeitar ou não rejeitar uma hipótese estatística. Para realizar testes de hipóteses, obtemos uma amostra aleatória da população e determinamos se é provável que os dados da amostra tenham ocorrido, visto que a hipótese nula é de fato verdadeira.
Se os dados da amostra forem suficientemente improváveis sob esta hipótese, então podemos rejeitar a hipótese nula e concluir que existe um efeito.
A maneira como determinamos se os dados da amostra são “suficientemente improváveis”, assumindo que zero é verdadeiro, é definir um certo nível de significância (geralmente escolhido como 0,01, 0,05 ou 0,10) e, em seguida, verificar se o valor p do teste de hipótese é menor. do que este nível de significância.
Se o valor p for menor que o nível de significância, dizemos que os resultados são estatisticamente significativos . Significa apenas que existe um certo efeito, mas não significa necessariamente que esse efeito seja realmente prático no mundo real. Os resultados podem ser estatisticamente significativos sem serem praticamente significativos .
Relacionado: Uma explicação dos valores P e significância estatística
Importância prática
É possível que testes de hipóteses produzam resultados estatisticamente significativos, apesar de um pequeno tamanho de efeito. Existem duas maneiras principais pelas quais tamanhos de efeito pequenos podem produzir valores p baixos (e, portanto, estatisticamente significativos):
1. A variabilidade dos dados amostrados é muito baixa. Quando os dados da sua amostra têm baixa variabilidade, um teste de hipótese é capaz de produzir estimativas mais precisas do efeito populacional, permitindo que o teste detecte até mesmo efeitos pequenos.
Por exemplo, suponha que queiramos realizar um teste t independente de duas amostras nas duas amostras a seguir que mostram as pontuações dos testes de 20 alunos de duas escolas diferentes para determinar se as pontuações médias dos testes são significativamente diferentes entre as escolas:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
A média da amostra 1 é 85,55 e a média da amostra 2 é 86,40 . Quando realizamos um teste t independente para duas amostras, verifica-se que a estatística do teste é -5,3065 e o valor p correspondente é <0,0001 . A diferença entre os resultados do teste é estatisticamente significativa.
A diferença entre as pontuações médias dos testes para estas duas amostras é de apenas 0,85 , mas a baixa variabilidade nas pontuações dos testes para cada escola resulta num resultado estatisticamente significativo. Observe que o desvio padrão das pontuações é 0,51 para a amostra 1 e 0,50 para a amostra 2.
Essa baixa variabilidade foi o que permitiu ao teste de hipótese detectar a pequena diferença entre os escores e permitir que as diferenças fossem estatisticamente significativas.
A razão subjacente pela qual a baixa variabilidade pode levar a conclusões estatisticamente significativas é que a estatística do teste t para um teste t independente de duas amostras é calculada da seguinte forma:
estatística de teste t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
onde s 2 1 e s 2 2 indicam a variação amostral para amostra 1 e amostra 2, respectivamente. Observe que quando esses dois números são pequenos, o denominador inteiro da estatística do teste t é pequeno.
E quando você divide por um número pequeno, obtém um número grande. Isto significa que a estatística do teste t será grande e o valor p correspondente será pequeno, levando assim a resultados estatisticamente significativos.
2. O tamanho da amostra é muito grande. Quanto maior o tamanho da amostra, maior o poder estatístico de um teste de hipótese, permitindo detectar até mesmo efeitos pequenos. Isto pode levar a resultados estatisticamente significativos, apesar de pequenos efeitos que podem não ter significado prático.
Por exemplo, suponha que queiramos realizar um teste t independente de duas amostras nas duas amostras a seguir que mostram as pontuações dos testes de 20 alunos de duas escolas diferentes para determinar se as pontuações médias dos testes são significativamente diferentes entre as escolas:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Se criarmos um boxplot para cada amostra para exibir a distribuição das pontuações, podemos ver que elas são muito semelhantes:
A média da amostra 1 é 90,65 e a média da amostra 2 é 90,75 . O desvio padrão para a amostra 1 é 2,77 e o desvio padrão para a amostra 2 é 2,78 . Quando realizamos um teste t independente para duas amostras, verifica-se que a estatística do teste é -0,113 e o valor p correspondente é 0,91 . A diferença entre as pontuações médias dos testes não é estatisticamente significativa.
No entanto, considere se os tamanhos amostrais das duas amostras fossem ambos 200 . Nesse caso, um teste t independente para duas amostras revelaria que a estatística do teste é -1,97 e o valor p correspondente está logo abaixo de 0,05 . A diferença entre as pontuações médias dos testes é estatisticamente significativa.
A razão subjacente pela qual amostras grandes podem levar a conclusões estatisticamente significativas remonta mais uma vez à estatística do teste t para um teste t independente de duas amostras:
estatística de teste t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
Observe que quando n 1 e n 2 são pequenos, o denominador inteiro da estatística do teste t é pequeno. E quando você divide por um número pequeno, obtém um número grande. Isto significa que a estatística do teste t será grande e o valor p correspondente será pequeno, levando assim a resultados estatisticamente significativos.
Use a experiência no assunto para avaliar a importância prática
Para determinar se um resultado estatisticamente significativo de um teste de hipótese é praticamente significativo, muitas vezes é necessário conhecimento no assunto.
Nos exemplos anteriores, quando estávamos testando as diferenças entre os resultados dos testes de duas escolas, seria útil ter a experiência de alguém que trabalha nas escolas ou que administra esses tipos de testes para nos ajudar a determinar se uma diferença média de 1 ponto existe ou não. tem implicações práticas.
Por exemplo, uma diferença média de 1 ponto pode ser estatisticamente significativa no nível alfa = 0,05, mas isso significa que a escola com as pontuações mais baixas deve adotar o programa que a escola com as pontuações mais altas utiliza? Ou envolveria demasiados custos administrativos e seria demasiado dispendioso/muito rápido de implementar?
Só porque existe uma diferença estatisticamente significativa nas pontuações dos testes entre duas escolas não significa que o tamanho do efeito da diferença seja grande o suficiente para causar algum tipo de mudança no sistema educacional.
Usando intervalos de confiança para avaliar a significância prática
Outra ferramenta útil para determinar a significância prática é ointervalo de confiança . Um intervalo de confiança nos dá um intervalo de valores dentro dos quais o verdadeiro parâmetro populacional provavelmente estará.
Por exemplo, voltemos ao exemplo da comparação da diferença nas notas dos testes entre duas escolas. O diretor pode declarar que é necessária uma diferença média de pontuação de pelo menos 5 pontos para que a escola adote um novo programa.
Em um estudo, podemos ver que a diferença média entre as pontuações dos testes é de 8 pontos. No entanto, o intervalo de confiança em torno desta média pode ser [4, 12], indicando que 4 pode ser a verdadeira diferença entre os resultados médios do teste. Neste caso, o diretor pode concluir que a escola não mudará o programa, uma vez que o intervalo de confiança indica que a verdadeira diferença pode ser inferior a 5.
Porém, em outro estudo podemos ver que a diferença média entre os resultados dos testes é novamente de 8 pontos, mas o intervalo de confiança em torno da média pode ser [6, 10]. Como esse intervalo não contém 5 , o diretor provavelmente concluirá que a verdadeira diferença entre as pontuações dos testes é maior que 5 e, assim, determinará que faz sentido modificar o programa.
Conclusão
Concluindo, aqui está o que aprendemos:
- A significância apenas estatística indica se existe um efeito baseado em um determinado nível de significância.
- A importância prática é se este efeito tem ou não implicações práticas no mundo real.
- Usamos análises estatísticas para determinar a significância estatística e experiência no domínio para avaliar a significância prática.
- Tamanhos de efeito pequenos podem produzir valores p pequenos quando (1) a variabilidade dos dados amostrais é muito pequena e quando (2) o tamanho da amostra é muito grande.
- Ao definir um tamanho de efeito mínimo antes de realizar um teste de hipótese, podemos avaliar melhor se o resultado de um teste de hipótese (mesmo que seja estatisticamente significativo) é realmente prático no mundo real.
- Os intervalos de confiança podem ser úteis na determinação da significância prática. Se o tamanho mínimo do efeito não estiver dentro de um intervalo de confiança, então os resultados podem ser praticamente significativos.