Comment créer un tableau de contingence dans R



Un tableau de contingence (parfois appelé « tableaux croisés ») est un type de tableau qui résume la relation entre deux variables catégorielles.

Heureusement, il est facile de créer un tableau de contingence pour les variables dans R en utilisant la fonction de tableau croisé dynamique. Ce didacticiel montre un exemple de la façon de procéder.

Exemple : tableau de contingence dans R

Supposons que nous disposions de l’ensemble de données suivant qui affiche des informations sur 20 commandes de produits différentes, y compris le type de produit acheté ainsi que le pays dans lequel le produit a été acheté :

#create data
df <- data.frame(order_num = 1:20,
                 product=rep(c('TV', 'Radio', 'Computer'), times=c(9, 6, 5)),
                 country=rep(c('A', 'B', 'C', 'D'), times=5))

#view data
df

   order_num  product country
1          1       TV       A
2          2       TV       B
3          3       TV       C
4          4       TV       D
5          5       TV       A
6          6       TV       B
7          7       TV       C
8          8       TV       D
9          9       TV       A
10        10    Radio       B
11        11    Radio       C
12        12    Radio       D
13        13    Radio       A
14        14    Radio       B
15        15    Radio       C
16        16 Computer       D
17        17 Computer       A
18        18 Computer       B
19        19 Computer       C
20        20 Computer       D

Pour créer un tableau de contingence, on peut simplement utiliser la fonction table() et fournir les variables product et country comme arguments :

#create contingency table
table <- table(df$product, df$country)

#view contingency table
table

           A B C D
  Computer 1 1 1 2
  Radio    1 2 2 1
  TV       3 2 2 2

Nous pouvons également utiliser la fonction addmargins() pour ajouter des marges au tableau :

#add margins to contingency table
table_w_margins <- addmargins(table)

#view contingency table
table_w_margins

            A  B  C  D Sum
  Computer  1  1  1  2   5
  Radio     1  2  2  1   6
  TV        3  2  2  2   9
  Sum       5  5  5  5  20

Voici comment interpréter le tableau :

  • La valeur dans le coin inférieur droit indique le nombre total de produits commandés : 20.
  • Les valeurs sur le côté droit montrent les sommes des lignes : Au total, 5 ordinateurs ont été commandés, 6 radios ont été commandées et 9 téléviseurs ont été commandés.
  • Les valeurs en bas du tableau montrent les sommes des colonnes : un total de 5 produits ont été commandés dans le pays A, 5 dans le pays B, 5 dans le pays C et 5 dans le pays D.
  • Les valeurs à l’intérieur du tableau indiquent le nombre de produits spécifiques commandés dans chaque pays : 1 ordinateur du pays A, 1 radio du pays A, 3 téléviseurs du pays A, etc.

Ressources additionnelles

Comment faire la moyenne sur les colonnes dans R
Comment additionner des colonnes spécifiques dans R
Comment calculer la moyenne de plusieurs colonnes dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *