Comment regrouper par deux colonnes dans ggplot2 (avec exemple)



Vous pouvez utiliser la syntaxe de base suivante pour regrouper par deux colonnes lors de la création d’un tracé dans ggplot2 :

ggplot(df, aes(x=var1, y=var2, color=var3, shape=var4,
       group=interaction(var3, var4))) + 
  geom_point() +
  geom_line()

Ce code particulier produit un tracé linéaire où les points sont regroupés par les colonnes var3 et var4 dans le bloc de données.

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : regrouper par deux colonnes dans ggplot2

Supposons que nous disposions du bloc de données suivant dans R qui montre les ventes totales au cours de plusieurs semaines dans deux magasins différents lorsque deux promotions différentes ont été organisées :

#create data frame
df <- data.frame(store=rep(c('A', 'B'), each=8),
                 promo=rep(c('Promo 1', 'Promo 2'), each=4, times=2),
                 week=rep(c(1:4), times=4),
                 sales=c(1, 2, 6, 7, 2, 3, 5, 6, 3, 4, 7, 8, 3, 5, 8, 9))

#view data frame
df

   store   promo week sales
1      A Promo 1    1     1
2      A Promo 1    2     2
3      A Promo 1    3     6
4      A Promo 1    4     7
5      A Promo 2    1     2
6      A Promo 2    2     3
7      A Promo 2    3     5
8      A Promo 2    4     6
9      B Promo 1    1     3
10     B Promo 1    2     4
11     B Promo 1    3     7
12     B Promo 1    4     8
13     B Promo 2    1     3
14     B Promo 2    2     5
15     B Promo 2    3     8
16     B Promo 2    4     9

Nous pouvons utiliser le code suivant pour créer un graphique linéaire dans ggplot2 dans lequel les valeurs des données sont regroupées par colonnes de magasin et de promotion :

library(ggplot2)

#create line plot with values grouped by store and promo
ggplot(df, aes(x=week, y=sales, color=store, shape=promo,
               group=interaction(store, promo))) + 
  geom_point(size=3) +
  geom_line()

groupe ggplot par deux colonnes

Le résultat est un graphique linéaire dans lequel chaque ligne représente les valeurs de ventes pour chaque combinaison de magasin et de promotion .

En particulier, les quatre lignes représentent les valeurs de ventes pour les combinaisons suivantes :

  • Promo 1 au magasin A
  • Promo 2 au magasin A
  • Promo 1 au magasin B
  • Promo 1 au magasin B

Les deux légendes sur le côté du tracé indiquent quelles lignes représentent quelles combinaisons.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans ggplot2 :

Comment faire pivoter les étiquettes des axes dans ggplot2
Comment définir des sauts d’axe dans ggplot2
Comment définir les limites de l’axe dans ggplot2
Comment changer les étiquettes de légende dans ggplot2

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *