Comment effectuer un test t avec des tailles d’échantillon inégales



Une question que les étudiants se posent souvent en matière de statistiques est la suivante :

Est-il possible d’effectuer un test t lorsque les tailles d’échantillon de chaque groupe ne sont pas égales ?

La réponse courte :

Oui, vous pouvez effectuer un test t lorsque les tailles d’échantillon ne sont pas égales. Des tailles d’échantillon égales ne font pas partie des hypothèses formulées dans un test t.

Les vrais problèmes surviennent lorsque les deux échantillons n’ont pas des variances égales, ce qui est l’une des hypothèses formulées dans un test t.

Lorsque cela se produit, il est recommandé d’utiliser plutôt le test t de Welch , qui ne fait pas l’hypothèse de variances égales.

Les exemples suivants montrent comment effectuer des tests T avec des tailles d’échantillon inégales lorsque les variances sont égales et lorsqu’elles ne le sont pas.

Exemple 1 : Tailles d’échantillon inégales et variances égales

Supposons que nous administrions deux programmes conçus pour aider les étudiants à obtenir de meilleurs résultats à certains examens.

Les résultats sont les suivants:

Programme 1 :

  • n (taille de l’échantillon) : 500
  • x (moyenne de l’échantillon) : 80
  • s (écart type de l’échantillon) : 5

Programme 2 :

  • n (taille de l’échantillon) : 20
  • x (moyenne de l’échantillon) : 85
  • s (écart type de l’échantillon) : 5

Le code suivant montre comment créer un boxplot dans R pour visualiser la distribution des résultats des examens pour chaque programme :

#make this example reproducible
set.seed(1)

#create vectors to hold exam scores
program1 <- rnorm(500, mean=80, sd=5)
program2 <- rnorm(20, mean=85, sd=5)

#create boxplots to visualize distribution of exam scores
boxplot(program1, program2, names=c("Program 1","Program 2"))

La note moyenne aux examens du programme 2 semble être plus élevée, mais la variance des notes aux examens entre les deux programmes est à peu près égale.

Le code suivant montre comment effectuer un test t pour échantillons indépendants avec un test t de Welch :

#perform independent samples t-test
t.test(program1, program2, var.equal=TRUE)

	Two Sample t-test

data:  program1 and program2
t = -3.3348, df = 518, p-value = 0.0009148
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.111504 -1.580245
sample estimates:
mean of x mean of y 
 80.11322  83.95910

#perform Welch's two sample t-test
t.test(program1, program2, var.equal=FALSE)

	Welch Two Sample t-test

data:  program1 and program2
t = -3.3735, df = 20.589, p-value = 0.00293
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.219551 -1.472199
sample estimates:
mean of x mean of y 
 80.11322  83.95910 

Le test t pour échantillons indépendants renvoie une valeur p de 0,0009 et le test t de Welch renvoie une valeur p de 0,0029 .

Étant donné que la valeur p de chaque test est inférieure à 0,05, nous rejetterions l’hypothèse nulle dans chaque test et conclurions qu’il existe une différence statistiquement significative dans les résultats moyens aux examens entre les deux programmes.

Même si les tailles d’échantillon sont inégales, le test t pour échantillons indépendants et le test t de Welch renvoient tous deux des résultats similaires puisque les deux échantillons présentaient des variances égales.

Exemple 2 : Tailles d’échantillon inégales et variances inégales

Supposons que nous administrions deux programmes conçus pour aider les étudiants à obtenir de meilleurs résultats à certains examens.

Les résultats sont les suivants:

Programme 1 :

  • n (taille de l’échantillon) : 500
  • x (moyenne de l’échantillon) : 80
  • s (écart type de l’échantillon) : 25

Programme 2 :

  • n (taille de l’échantillon) : 20
  • x (moyenne de l’échantillon) : 85
  • s (écart type de l’échantillon) : 5

Le code suivant montre comment créer un boxplot dans R pour visualiser la distribution des résultats des examens pour chaque programme :

#make this example reproducible
set.seed(1)

#create vectors to hold exam scores
program1 <- rnorm(500, mean=80, sd=25)
program2 <- rnorm(20, mean=85, sd=5)

#create boxplots to visualize distribution of exam scores
boxplot(program1, program2, names=c("Program 1","Program 2"))

La note moyenne aux examens du programme 2 semble être plus élevée, mais la variance des notes aux examens du programme 1 est beaucoup plus élevée que celle du programme 2.

Le code suivant montre comment effectuer un test t pour échantillons indépendants avec un test t de Welch :

#perform independent samples t-test
t.test(program1, program2, var.equal=TRUE)

	Two Sample t-test

data:  program1 and program2
t = -0.5988, df = 518, p-value = 0.5496
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -14.52474   7.73875
sample estimates:
mean of x mean of y 
  80.5661   83.9591

#perform Welch's two sample t-test
t.test(program1, program2, var.equal=FALSE)

	Welch Two Sample t-test

data:  program1 and program2
t = -2.1338, df = 74.934, p-value = 0.03613
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -6.560690 -0.225296
sample estimates:
mean of x mean of y 
  80.5661   83.9591 

Le test t pour échantillons indépendants renvoie une valeur p de 0,5496 et le test t de Welch renvoie une valeur p de 0,0361 .

Le test t pour échantillons indépendants n’est pas capable de détecter une différence dans les résultats moyens aux examens, mais le test t de Welch est capable de détecter une différence statistiquement significative.

Étant donné que les deux échantillons présentaient des variances inégales, seul le test t de Welch a pu détecter la différence statistiquement significative dans les résultats moyens aux examens, car ce test ne fait pas l’hypothèse de variances égales entre les échantillons .

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur les tests t :

Introduction au test t sur un échantillon
Introduction au test t à deux échantillons
Introduction au test t pour échantillons appariés

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *