Le guide complet : tests d’hypothèses dans R



Un test d’hypothèse est un test statistique formel que nous utilisons pour rejeter ou échouer à rejeter une hypothèse statistique.

Ce tutoriel explique comment effectuer les tests d’hypothèse suivants dans R :

  • Un échantillon de test t
  • Test T à deux échantillons
  • Test t pour échantillons appariés

Nous pouvons utiliser la fonction t.test() dans R pour effectuer chaque type de test :

#one sample t-test
t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, …)

où:

  • x, y : les deux échantillons de données.
  • alternative : L’hypothèse alternative du test.
  • mu : La vraie valeur de la moyenne.
  • paired : s’il faut effectuer ou non un test t apparié.
  • var.equal : s’il faut supposer que les variances sont égales entre les échantillons.
  • conf.level : Le niveau de confiance à utiliser.

Les exemples suivants montrent comment utiliser cette fonction dans la pratique.

Exemple 1 : test t sur un échantillon dans R

Un test t sur un échantillon est utilisé pour tester si la moyenne d’une population est égale ou non à une certaine valeur.

Par exemple, supposons que nous voulions savoir si le poids moyen d’une certaine espèce de tortue est égal ou non à 310 livres. Nous sortons et collectons un échantillon aléatoire simple de tortues avec les poids suivants :

Poids : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

Le code suivant montre comment effectuer cet exemple de test t dans R :

#define vector of turtle weights
turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)

#perform one sample t-test
t.test(x = turtle_weights, mu = 310)

	One Sample t-test

data:  turtle_weights
t = -1.5848, df = 12, p-value = 0.139
alternative hypothesis: true mean is not equal to 310
95 percent confidence interval:
 303.4236 311.0379
sample estimates:
mean of x 
 307.2308 

À partir du résultat, nous pouvons voir :

  • Statistique du test t : -1,5848
  • degrés de liberté : 12
  • Valeur p : 0,139
  • Intervalle de confiance à 95 % pour la vraie moyenne : [303,4236, 311,0379]
  • moyenne des poids des tortues : 307,230

Puisque la valeur p du test (0,139) n’est pas inférieure à 0,05, nous ne parvenons pas à rejeter l’hypothèse nulle.

Cela signifie que nous n’avons pas suffisamment de preuves pour affirmer que le poids moyen de cette espèce de tortue est différent de 310 livres.

Exemple 2 : test t à deux échantillons dans R

Un test t à deux échantillons est utilisé pour tester si les moyennes de deux populations sont égales ou non.

Par exemple, supposons que nous voulions savoir si le poids moyen de deux espèces différentes de tortues est égal ou non. Pour tester cela, nous collectons un échantillon aléatoire simple de tortues de chaque espèce avec les poids suivants :

Échantillon 1 : 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

Échantillon 2 : 335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305

Le code suivant montre comment effectuer ces deux exemples de test t dans R :

#define vector of turtle weights for each sample
sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)
sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305)

#perform two sample t-test
t.test(x = sample1, y = sample2)

	Welch Two Sample t-test

data:  sample1 and sample2
t = -2.1009, df = 19.112, p-value = 0.04914
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -14.73862953  -0.03060124
sample estimates:
mean of x mean of y 
 307.2308  314.6154 

À partir du résultat, nous pouvons voir :

  • Statistique du test t : -2,1009
  • degrés de liberté : 19,112
  • Valeur p : 0,04914
  • Intervalle de confiance à 95 % pour la vraie différence moyenne : [-14,74, -0,03]
  • moyenne des poids de l’échantillon 1 : 307,2308
  • moyenne des poids de l’échantillon 2 : 314,6154

Puisque la valeur p du test (0,04914) est inférieure à 0,05, nous rejetons l’hypothèse nulle.

Cela signifie que nous disposons de suffisamment de preuves pour affirmer que le poids moyen entre les deux espèces n’est pas égal.

Exemple 3 : test t pour échantillons appariés dans R

Un test t pour échantillons appariés est utilisé pour comparer les moyennes de deux échantillons lorsque chaque observation dans un échantillon peut être associée à une observation dans l’autre échantillon.

Par exemple, supposons que nous voulions savoir si un certain programme d’entraînement est capable ou non d’augmenter le saut vertical maximum (en pouces) des joueurs de basket-ball.

Pour tester cela, nous pouvons recruter un échantillon aléatoire simple de 12 joueurs de basket-ball universitaire et mesurer chacun de leurs sauts verticaux maximum. Ensuite, nous pouvons demander à chaque joueur d’utiliser le programme d’entraînement pendant un mois, puis de mesurer à nouveau son saut vertical maximum à la fin du mois.

Les données suivantes montrent la hauteur de saut maximale (en pouces) avant et après l’utilisation du programme d’entraînement pour chaque joueur :

Avant : 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21

Après : 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20

Le code suivant montre comment effectuer ce test t pour échantillons appariés dans R :

#define before and after max jump heights
before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21)
after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20)

#perform paired samples t-test
t.test(x = before, y = after, paired = TRUE)

	Paired t-test

data:  before and after
t = -2.5289, df = 11, p-value = 0.02803
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.3379151 -0.1620849
sample estimates:
mean of the differences 
                  -1.25

À partir du résultat, nous pouvons voir :

  • Statistique du test t : -2,5289
  • degrés de liberté : 11
  • Valeur p : 0,02803
  • Intervalle de confiance à 95 % pour la vraie différence moyenne : [-2,34, -0,16]
  • différence moyenne entre avant et après : -1,25

Puisque la valeur p du test (0,02803) est inférieure à 0,05, nous rejetons l’hypothèse nulle.

Cela signifie que nous disposons de suffisamment de preuves pour affirmer que la hauteur moyenne de saut avant et après l’utilisation du programme d’entraînement n’est pas égale.

Ressources additionnelles

Utilisez les calculateurs en ligne suivants pour effectuer automatiquement divers tests t :

Un exemple de calculateur de test t
Calculateur de test t à deux échantillons
Calculateur de test t pour échantillons appariés

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *