Une explication simple de l’importance statistique par rapport à l’importance pratique
Une hypothèse statistique est une hypothèse concernant un paramètre de population . Par exemple, nous pouvons supposer que la taille moyenne d’un homme dans un certain comté est de 68 pouces. L’hypothèse concernant la taille est l’ hypothèse statistique et la véritable taille moyenne d’un homme aux États-Unis est le paramètre de population .
Un test d’hypothèse est un test statistique formel que nous utilisons pour rejeter ou échouer à rejeter une hypothèse statistique. Pour effectuer un test d’hypothèse, nous obtenons un échantillon aléatoire de la population et déterminons si les données de l’échantillon sont susceptibles de s’être produites, étant donné que l’hypothèse nulle est effectivement vraie.
Si les données de l’échantillon sont suffisamment improbables selon cette hypothèse, nous pouvons alors rejeter l’hypothèse nulle et conclure à l’existence d’un effet.
La façon dont nous déterminons si les données de l’échantillon sont « suffisamment improbables » en supposant que la valeur nulle est vraie consiste à définir un certain niveau de signification (généralement choisi comme étant 0,01, 0,05 ou 0,10), puis à vérifier si le p- La valeur du test d’hypothèse est inférieure à ce niveau de signification.
Si la valeur p est inférieure au seuil de signification, alors nous disons que les résultats sont statistiquement significatifs . Cela signifie simplement qu’un certain effet existe, mais cela ne signifie pas nécessairement que cet effet est réellement pratique dans le monde réel. Les résultats peuvent être statistiquement significatifs sans être pratiquement significatifs .
Connexes : Une explication des valeurs P et de la signification statistique
Importance pratique
Il est possible que les tests d’hypothèse produisent des résultats statistiquement significatifs, malgré une petite taille d’effet. Il existe deux manières principales pour lesquelles de petites tailles d’effet peuvent produire des valeurs p faibles (et donc statistiquement significatives) :
1. La variabilité des données échantillonnées est très faible. Lorsque les données de votre échantillon présentent une faible variabilité, un test d’hypothèse est capable de produire des estimations plus précises de l’effet sur la population, ce qui permet au test de détecter même de petits effets.
Par exemple, supposons que nous souhaitions effectuer un test t indépendant à deux échantillons sur les deux échantillons suivants qui montrent les résultats aux tests de 20 élèves de deux écoles différentes afin de déterminer si les résultats moyens aux tests sont significativement différents entre les écoles :
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
La moyenne de l’échantillon 1 est de 85,55 et la moyenne de l’échantillon 2 est de 86,40 . Lorsque nous effectuons un test t indépendant sur deux échantillons, il s’avère que la statistique du test est de -5,3065 et la valeur p correspondante est <0,0001 . La différence entre les résultats des tests est statistiquement significative.
La différence entre les résultats moyens aux tests pour ces deux échantillons n’est que de 0,85 , mais la faible variabilité des résultats aux tests pour chaque école entraîne un résultat statistiquement significatif. Notez que l’écart type des scores est de 0,51 pour l’échantillon 1 et de 0,50 pour l’échantillon 2.
Cette faible variabilité est ce qui a permis au test d’hypothèse de détecter la petite différence entre les scores et de permettre aux différences d’être statistiquement significatives.
La raison sous-jacente pour laquelle une faible variabilité peut conduire à des conclusions statistiquement significatives est que la statistique de test t pour un test t indépendant à deux échantillons est calculée comme suit :
statistique de test t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
où s 2 1 et s 2 2 indiquent la variation de l’échantillon pour l’échantillon 1 et l’échantillon 2, respectivement. Notez que lorsque ces deux nombres sont petits, le dénominateur entier de la statistique de test t est petit.
Et quand on divise par un petit nombre, on obtient un grand nombre. Cela signifie que la statistique de test t sera grande et la valeur p correspondante sera petite, conduisant ainsi à des résultats statistiquement significatifs.
2. La taille de l’échantillon est très grande. Plus la taille de l’échantillon est grande, plus la puissance statistique d’un test d’hypothèse est grande, ce qui lui permet de détecter même des effets minimes. Cela peut conduire à des résultats statistiquement significatifs, malgré de petits effets qui peuvent n’avoir aucune signification pratique.
Par exemple, supposons que nous souhaitions effectuer un test t indépendant à deux échantillons sur les deux échantillons suivants qui montrent les résultats aux tests de 20 élèves de deux écoles différentes afin de déterminer si les résultats moyens aux tests sont significativement différents entre les écoles :
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
Si nous créons un boxplot pour chaque échantillon afin d’afficher la distribution des scores, nous pouvons voir qu’ils se ressemblent beaucoup :
La moyenne de l’échantillon 1 est de 90,65 et la moyenne de l’échantillon 2 est de 90,75 . L’écart type pour l’échantillon 1 est de 2,77 et l’écart type pour l’échantillon 2 est de 2,78 . Lorsque nous effectuons un test t indépendant sur deux échantillons, il s’avère que la statistique du test est de -0,113 et la valeur p correspondante est de 0,91 . La différence entre les résultats moyens des tests n’est pas statistiquement significative.
Cependant, considérons si les tailles d’échantillon des deux échantillons étaient toutes deux de 200 . Dans ce cas, un test t indépendant sur deux échantillons révélerait que la statistique du test est de -1,97 et que la valeur p correspondante est juste en dessous de 0,05 . La différence entre les résultats moyens des tests est statistiquement significative.
La raison sous-jacente pour laquelle des échantillons de grande taille peuvent conduire à des conclusions statistiquement significatives remonte une fois de plus à la statistique de test t pour un test t indépendant à deux échantillons :
statistique de test t = [ ( x 1 – x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )
Notez que lorsque n 1 et n 2 sont petits, le dénominateur entier de la statistique de test t est petit. Et quand on divise par un petit nombre, on obtient un grand nombre. Cela signifie que la statistique de test t sera grande et la valeur p correspondante sera petite, conduisant ainsi à des résultats statistiquement significatifs.
Utiliser l’expertise en la matière pour évaluer l’importance pratique
Pour déterminer si un résultat statistiquement significatif d’un test d’hypothèse est pratiquement significatif, une expertise en la matière est souvent nécessaire.
Dans les exemples précédents, lorsque nous testions les différences entre les résultats des tests de deux écoles, il serait utile d’avoir l’expertise d’une personne qui travaille dans les écoles ou qui administre ce type de tests pour nous aider à déterminer si une différence moyenne de 1 point existe ou non. a des implications pratiques.
Par exemple, une différence moyenne de 1 point peut être statistiquement significative au niveau alpha = 0,05, mais cela signifie-t-il que l’école avec les scores les plus faibles devrait adopter le programme que l’école avec les scores les plus élevés utilise ? Ou cela impliquerait-il trop de coûts administratifs et serait-il trop coûteux/trop rapide à mettre en œuvre ?
Ce n’est pas parce qu’il existe une différence statistiquement significative dans les résultats aux tests entre deux écoles que l’ampleur de l’effet de la différence est suffisamment importante pour provoquer un certain type de changement dans le système éducatif.
Utiliser les intervalles de confiance pour évaluer la signification pratique
Un autre outil utile pour déterminer l’importance pratique est l’ intervalle de confiance . Un intervalle de confiance nous donne une plage de valeurs dans laquelle le véritable paramètre de population est susceptible de se situer.
Par exemple, revenons à l’exemple de la comparaison de la différence de résultats aux tests entre deux écoles. Un directeur peut déclarer qu’une différence moyenne des scores d’au moins 5 points est nécessaire pour que l’école puisse adopter un nouveau programme.
Dans une étude, nous pouvons constater que la différence moyenne entre les résultats des tests est de 8 points. Cependant, l’intervalle de confiance autour de cette moyenne peut être de [4, 12], ce qui indique que 4 pourrait être la véritable différence entre les résultats moyens des tests. Dans ce cas, le directeur peut conclure que l’école ne modifiera pas le programme puisque l’intervalle de confiance indique que la véritable différence pourrait être inférieure à 5.
Cependant, dans une autre étude, nous pouvons constater que la différence moyenne entre les résultats des tests est à nouveau de 8 points, mais l’intervalle de confiance autour de la moyenne peut être de [6, 10]. Puisque cet intervalle ne contient pas 5 , le directeur conclura probablement que la véritable différence entre les résultats des tests est supérieure à 5 et déterminera ainsi qu’il est logique de modifier le programme.
Conclusion
En conclusion, voici ce que nous avons appris :
- La signification statistique indique uniquement s’il existe un effet basé sur un certain niveau de signification.
- L’importance pratique est de savoir si cet effet a ou non des implications pratiques dans le monde réel.
- Nous utilisons des analyses statistiques pour déterminer la signification statistique et l’expertise dans le domaine pour évaluer la signification pratique.
- De petites tailles d’effet peuvent produire de petites valeurs p lorsque (1) la variabilité des données de l’échantillon est très faible et lorsque (2) la taille de l’échantillon est très grande.
- En définissant une taille d’effet minimale avant de procéder à un test d’hypothèse, nous pouvons mieux évaluer si le résultat d’un test d’hypothèse (même s’il est statistiquement significatif) est réellement pratique dans le monde réel.
- Les intervalles de confiance peuvent être utiles pour déterminer l’importance pratique. Si l’ampleur minimale de l’effet n’est pas comprise dans un intervalle de confiance, les résultats peuvent alors être pratiquement significatifs.