Uma explicação simples de importância estatística versus importância prática

By Dr. benjamim anderson Julho 29, 2023 Guia 0 Comments

Uma hipótese estatística é uma suposição sobre um parâmetro populacional . Por exemplo, podemos supor que a altura média de um homem em um determinado município é de 68 polegadas. A hipótese relativa à altura é a hipótese estatística e a verdadeira altura média de um homem nos Estados Unidos é o parâmetro populacional .

Um teste de hipótese é um teste estatístico formal que usamos para rejeitar ou não rejeitar uma hipótese estatística. Para realizar testes de hipóteses, obtemos uma amostra aleatória da população e determinamos se é provável que os dados da amostra tenham ocorrido, visto que a hipótese nula é de fato verdadeira.

Se os dados da amostra forem suficientemente improváveis sob esta hipótese, então podemos rejeitar a hipótese nula e concluir que existe um efeito.

A maneira como determinamos se os dados da amostra são “suficientemente improváveis”, assumindo que zero é verdadeiro, é definir um certo nível de significância (geralmente escolhido como 0,01, 0,05 ou 0,10) e, em seguida, verificar se o valor p do teste de hipótese é menor. do que este nível de significância.

Se o valor p for menor que o nível de significância, dizemos que os resultados são estatisticamente significativos . Significa apenas que existe um certo efeito, mas não significa necessariamente que esse efeito seja realmente prático no mundo real. Os resultados podem ser estatisticamente significativos sem serem praticamente significativos .

Relacionado: Uma explicação dos valores P e significância estatística

Importância prática

É possível que testes de hipóteses produzam resultados estatisticamente significativos, apesar de um pequeno tamanho de efeito. Existem duas maneiras principais pelas quais tamanhos de efeito pequenos podem produzir valores p baixos (e, portanto, estatisticamente significativos):

1. A variabilidade dos dados amostrados é muito baixa. Quando os dados da sua amostra têm baixa variabilidade, um teste de hipótese é capaz de produzir estimativas mais precisas do efeito populacional, permitindo que o teste detecte até mesmo efeitos pequenos.

Por exemplo, suponha que queiramos realizar um teste t independente de duas amostras nas duas amostras a seguir que mostram as pontuações dos testes de 20 alunos de duas escolas diferentes para determinar se as pontuações médias dos testes são significativamente diferentes entre as escolas:

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

A média da amostra 1 é 85,55 e a média da amostra 2 é 86,40 . Quando realizamos um teste t independente para duas amostras, verifica-se que a estatística do teste é -5,3065 e o valor p correspondente é <0,0001 . A diferença entre os resultados do teste é estatisticamente significativa.

A diferença entre as pontuações médias dos testes para estas duas amostras é de apenas 0,85 , mas a baixa variabilidade nas pontuações dos testes para cada escola resulta num resultado estatisticamente significativo. Observe que o desvio padrão das pontuações é 0,51 para a amostra 1 e 0,50 para a amostra 2.

Essa baixa variabilidade foi o que permitiu ao teste de hipótese detectar a pequena diferença entre os escores e permitir que as diferenças fossem estatisticamente significativas.

A razão subjacente pela qual a baixa variabilidade pode levar a conclusões estatisticamente significativas é que a estatística do teste t para um teste t independente de duas amostras é calculada da seguinte forma:

estatística de teste t = [ ( x ₁ – x ₂ ) – d ] / (√ s ² ₁ / n ₁ + s ² ₂ / n ₂ )

onde s ² ₁ e s ² ₂ indicam a variação amostral para amostra 1 e amostra 2, respectivamente. Observe que quando esses dois números são pequenos, o denominador inteiro da estatística do teste t é pequeno.

E quando você divide por um número pequeno, obtém um número grande. Isto significa que a estatística do teste t será grande e o valor p correspondente será pequeno, levando assim a resultados estatisticamente significativos.

2. O tamanho da amostra é muito grande. Quanto maior o tamanho da amostra, maior o poder estatístico de um teste de hipótese, permitindo detectar até mesmo efeitos pequenos. Isto pode levar a resultados estatisticamente significativos, apesar de pequenos efeitos que podem não ter significado prático.

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

Se criarmos um boxplot para cada amostra para exibir a distribuição das pontuações, podemos ver que elas são muito semelhantes:

A média da amostra 1 é 90,65 e a média da amostra 2 é 90,75 . O desvio padrão para a amostra 1 é 2,77 e o desvio padrão para a amostra 2 é 2,78 . Quando realizamos um teste t independente para duas amostras, verifica-se que a estatística do teste é -0,113 e o valor p correspondente é 0,91 . A diferença entre as pontuações médias dos testes não é estatisticamente significativa.

No entanto, considere se os tamanhos amostrais das duas amostras fossem ambos 200 . Nesse caso, um teste t independente para duas amostras revelaria que a estatística do teste é -1,97 e o valor p correspondente está logo abaixo de 0,05 . A diferença entre as pontuações médias dos testes é estatisticamente significativa.

A razão subjacente pela qual amostras grandes podem levar a conclusões estatisticamente significativas remonta mais uma vez à estatística do teste t para um teste t independente de duas amostras:

estatística de teste t = [ ( x ₁ – x ₂ ) – d ] / (√ s ² ₁ / n ₁ + s ² ₂ / n ₂ )

Observe que quando n ₁ e n ₂ são pequenos, o denominador inteiro da estatística do teste t é pequeno. E quando você divide por um número pequeno, obtém um número grande. Isto significa que a estatística do teste t será grande e o valor p correspondente será pequeno, levando assim a resultados estatisticamente significativos.

Use a experiência no assunto para avaliar a importância prática

Para determinar se um resultado estatisticamente significativo de um teste de hipótese é praticamente significativo, muitas vezes é necessário conhecimento no assunto.

Nos exemplos anteriores, quando estávamos testando as diferenças entre os resultados dos testes de duas escolas, seria útil ter a experiência de alguém que trabalha nas escolas ou que administra esses tipos de testes para nos ajudar a determinar se uma diferença média de 1 ponto existe ou não. tem implicações práticas.

Por exemplo, uma diferença média de 1 ponto pode ser estatisticamente significativa no nível alfa = 0,05, mas isso significa que a escola com as pontuações mais baixas deve adotar o programa que a escola com as pontuações mais altas utiliza? Ou envolveria demasiados custos administrativos e seria demasiado dispendioso/muito rápido de implementar?

Só porque existe uma diferença estatisticamente significativa nas pontuações dos testes entre duas escolas não significa que o tamanho do efeito da diferença seja grande o suficiente para causar algum tipo de mudança no sistema educacional.

Usando intervalos de confiança para avaliar a significância prática

Outra ferramenta útil para determinar a significância prática é ointervalo de confiança . Um intervalo de confiança nos dá um intervalo de valores dentro dos quais o verdadeiro parâmetro populacional provavelmente estará.

Por exemplo, voltemos ao exemplo da comparação da diferença nas notas dos testes entre duas escolas. O diretor pode declarar que é necessária uma diferença média de pontuação de pelo menos 5 pontos para que a escola adote um novo programa.

Em um estudo, podemos ver que a diferença média entre as pontuações dos testes é de 8 pontos. No entanto, o intervalo de confiança em torno desta média pode ser [4, 12], indicando que 4 pode ser a verdadeira diferença entre os resultados médios do teste. Neste caso, o diretor pode concluir que a escola não mudará o programa, uma vez que o intervalo de confiança indica que a verdadeira diferença pode ser inferior a 5.

Porém, em outro estudo podemos ver que a diferença média entre os resultados dos testes é novamente de 8 pontos, mas o intervalo de confiança em torno da média pode ser [6, 10]. Como esse intervalo não contém 5 , o diretor provavelmente concluirá que a verdadeira diferença entre as pontuações dos testes é maior que 5 e, assim, determinará que faz sentido modificar o programa.

Conclusão

Concluindo, aqui está o que aprendemos:

A significância apenas estatística indica se existe um efeito baseado em um determinado nível de significância.
A importância prática é se este efeito tem ou não implicações práticas no mundo real.
Usamos análises estatísticas para determinar a significância estatística e experiência no domínio para avaliar a significância prática.
Tamanhos de efeito pequenos podem produzir valores p pequenos quando (1) a variabilidade dos dados amostrais é muito pequena e quando (2) o tamanho da amostra é muito grande.
Ao definir um tamanho de efeito mínimo antes de realizar um teste de hipótese, podemos avaliar melhor se o resultado de um teste de hipótese (mesmo que seja estatisticamente significativo) é realmente prático no mundo real.
Os intervalos de confiança podem ser úteis na determinação da significância prática. Se o tamanho mínimo do efeito não estiver dentro de um intervalo de confiança, então os resultados podem ser praticamente significativos.

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais