Les quatre hypothèses formulées dans un test T



Un test t à deux échantillons est utilisé pour tester si les moyennes de deux populations sont égales ou non.

Ce type de test fait les hypothèses suivantes sur les données :

1. Indépendance : les observations d’un échantillon sont indépendantes des observations de l’autre échantillon.

2. Normalité : Les deux échantillons ont une distribution approximativement normale.

3. Homogénéité des variances : Les deux échantillons ont à peu près la même variance.

4. Échantillonnage aléatoire : Les deux échantillons ont été obtenus à l’aide d’une méthode d’échantillonnage aléatoire.

Si une ou plusieurs de ces hypothèses ne sont pas respectées, les résultats du test t sur deux échantillons peuvent être peu fiables, voire trompeurs.

Dans ce didacticiel, nous fournissons une explication de chaque hypothèse, comment déterminer si l’hypothèse est satisfaite et que faire si elle n’est pas respectée.

Hypothèse 1 : Indépendance

Un test t à deux échantillons suppose que les observations d’un échantillon sont indépendantes des observations de l’autre échantillon.

Il s’agit d’une hypothèse cruciale car si les mêmes individus apparaissent dans les deux échantillons, il n’est alors pas valable de tirer des conclusions sur les différences entre les échantillons.

Comment vérifier cette hypothèse

Le moyen le plus simple de vérifier cette hypothèse est de vérifier que chaque observation n’apparaît qu’une seule fois dans chaque échantillon et que les observations de chaque échantillon ont été collectées par échantillonnage aléatoire.

Que faire si cette hypothèse n’est pas respectée

Si cette hypothèse n’est pas respectée, les résultats du test t sur deux échantillons sont complètement invalides. Dans ce scénario, il est préférable de collecter deux nouveaux échantillons en utilisant une méthode d’échantillonnage aléatoire et de s’assurer que chaque individu d’un échantillon n’appartient pas à l’autre échantillon.

Hypothèse 2 : normalité

Un test t à deux échantillons suppose que les deux échantillons sont à peu près normalement distribués.

Il s’agit d’une hypothèse cruciale car si les échantillons ne sont pas distribués normalement, il n’est pas valable d’utiliser les valeurs p du test pour tirer des conclusions sur les différences entre les échantillons.

Comment vérifier cette hypothèse

Si les tailles d’échantillon sont petites (n < 50), nous pouvons alors utiliser un test de Shapiro-Wilk pour déterminer si chaque taille d’échantillon est normalement distribuée. Si la valeur p du test est inférieure à un certain niveau de signification, les données ne sont probablement pas distribuées normalement.

Si la taille des échantillons est grande, il est préférable d’utiliser un tracé QQ pour vérifier visuellement si les données sont normalement distribuées.

Si les points de données se situent à peu près le long d’une ligne diagonale droite dans un tracé QQ, alors l’ensemble de données suit probablement une distribution normale.

Que faire si cette hypothèse n’est pas respectée

Si cette hypothèse n’est pas respectée, nous pouvons alors effectuer un test U de Mann-Whitney , qui est considéré comme l’équivalent non paramétrique du test t à deux échantillons et ne suppose pas que les deux échantillons sont normalement distribués.

Hypothèse 3 : Homogénéité des écarts

Un test t à deux échantillons suppose que les deux échantillons ont des variances à peu près égales.

Comment vérifier cette hypothèse

Nous utilisons la règle empirique suivante pour déterminer si les variances entre les deux échantillons sont égales : Si le rapport de la plus grande variance à la plus petite variance est inférieur à 4, alors nous pouvons supposer que les variances sont approximativement égales et utiliser les deux échantillons t -test.

Par exemple, supposons que l’échantillon 1 ait une variance de 24,5 et que l’échantillon 2 ait une variance de 15,2. Le rapport entre la plus grande variance de l’échantillon et la plus petite variance de l’échantillon serait calculé comme suit :

Rapport : 24,5 / 15,2 = 1,61

Ce rapport étant inférieur à 4, on pourrait supposer que les écarts entre les deux groupes sont à peu près égaux.

Que faire si cette hypothèse n’est pas respectée

Si cette hypothèse n’est pas respectée, nous pouvons alors effectuer le test t de Welch , qui est une version non paramétrique du test t à deux échantillons et ne suppose pas que les deux échantillons ont des variances égales.

Hypothèse 4 : Échantillonnage aléatoire

Un test t à deux échantillons suppose que les deux échantillons ont été obtenus à l’aide d’une méthode d’échantillonnage aléatoire.

Comment vérifier cette hypothèse

Il n’existe aucun test statistique formel que nous pouvons utiliser pour tester cette hypothèse. Au lieu de cela, nous devons simplement nous assurer que les deux échantillons ont été obtenus à l’aide d’une méthode d’échantillonnage aléatoire de telle sorte que chaque individu de la population d’intérêt ait une probabilité égale d’être inclus dans l’un ou l’autre échantillon.

Que faire si cette hypothèse n’est pas respectée

Si cette hypothèse n’est pas respectée, il est alors peu probable que nos deux échantillons soient représentatifs de la population d’intérêt. Dans ce cas, nous ne pouvons pas généraliser avec fiabilité les résultats du test t à deux échantillons à la population globale.

Dans ce scénario, il est préférable de collecter deux nouveaux échantillons en utilisant une méthode d’échantillonnage aléatoire.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *