Qu’est-ce que l’hypothèse de normalité en statistique ?



De nombreux tests statistiques reposent sur ce qu’on appelle l’ hypothèse de normalité .

Cette hypothèse stipule que si nous collectons de nombreux échantillons aléatoires indépendants d’une population et calculons une valeur intéressante (comme la moyenne de l’échantillon ), puis créons un histogramme pour visualiser la distribution des moyennes de l’échantillon, nous devrions observer une courbe en cloche parfaite.

De nombreuses techniques statistiques font cette hypothèse à propos des données, notamment :

1. Un échantillon de test t : on suppose que les exemples de données sont normalement distribués.

2. Test t à deux échantillons : on suppose que les deux échantillons sont normalement distribués.

3. ANOVA : On suppose que les résidus du modèle sont normalement distribués.

4. Régression linéaire : On suppose que les résidus du modèle sont normalement distribués.

Si cette hypothèse n’est pas respectée, les résultats de ces tests deviennent peu fiables et nous ne sommes pas en mesure de généraliser avec confiance nos conclusions tirées des échantillons de données à la population globale. C’est pourquoi il est important de vérifier si cette hypothèse est remplie.

Il existe deux manières courantes de vérifier si cette hypothèse de normalité est remplie :

1. Visualisez la normalité

2. Effectuer un test statistique formel

Les sections suivantes expliquent les graphiques spécifiques que vous pouvez créer et les tests statistiques spécifiques que vous pouvez effectuer pour vérifier la normalité.

Visualisez la normalité

Un moyen rapide et informel de vérifier si un ensemble de données est normalement distribué consiste à créer un histogramme ou un tracé QQ.

1. Histogramme

Si l’histogramme d’un ensemble de données est à peu près en forme de cloche, il est probable que les données soient distribuées normalement.

2. Terrain QQ

Un tracé QQ, abréviation de « quantile-quantile », est un type de tracé qui affiche les quantiles théoriques le long de l’axe des x (c’est-à-dire où se trouveraient vos données si elles suivaient une distribution normale) et des quantiles d’échantillons le long de l’axe des y. (c’est-à-dire où se trouvent réellement vos données).

Si les valeurs des données suivent une ligne à peu près droite formant un angle de 45 degrés, alors les données sont supposées être distribuées normalement.

Effectuer un test statistique formel

Vous pouvez également effectuer un test statistique formel pour déterminer si un ensemble de données est normalement distribué.

Si la valeur p du test est inférieure à un certain niveau de signification (comme α = 0,05), vous disposez alors de preuves suffisantes pour affirmer que les données ne sont pas normalement distribuées.

Il existe trois tests statistiques couramment utilisés pour tester la normalité :

1. Le test Jarque-Bera

2. Le test de Shapiro-Wilk

3. Le test de Kolmogorov-Smirnov

Que faire si l’hypothèse de normalité est violée

S’il s’avère que vos données ne sont pas normalement distribuées, vous avez deux options :

1. Transformez les données.

Une option consiste simplement à transformer les données pour les rendre plus normalement distribuées. Les transformations courantes incluent :

  • Log Transformation : Transformez les données de y en log(y) .
  • Transformation racine carrée : transformer les données de y en y
  • Transformation de racine cubique : Transformez les données de y en y 1/3
  • Transformation Box-Cox : Transformez les données à l’aide d’une procédure Box-Cox

En effectuant ces transformations, la distribution des valeurs de données devient généralement plus normalement distribuée.

2. Effectuer un test non paramétrique

Les tests statistiques qui font l’hypothèse de normalité sont appelés tests paramétriques . Mais il existe également une famille de tests dits non paramétriques qui ne font pas cette hypothèse de normalité.

S’il s’avère que vos données ne sont pas normalement distribuées, vous pouvez simplement effectuer un test non paramétrique. Voici quelques versions non paramétriques de tests statistiques courants :

Test paramétrique Équivalent non paramétrique
Un échantillon de test t Un échantillon de test de classement signé Wilcoxon
Test t à deux échantillons Test U de Mann-Whitney
Test t pour échantillons appariés Deux échantillons de test de classement signé Wilcoxon
ANOVA unidirectionnelle Test de Kruskal-Wallis

Chacun de ces tests non paramétriques permet de réaliser un test statistique sans satisfaire à l’hypothèse de normalité.

Ressources additionnelles

Les quatre hypothèses formulées dans un test T
Les quatre hypothèses de la régression linéaire
Les quatre hypothèses de l’ANOVA

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *