Comment agréger plusieurs colonnes dans R (avec exemples)



Nous pouvons utiliser la fonction Aggregate() dans R pour produire des statistiques récapitulatives pour une ou plusieurs variables dans un bloc de données.

Cette fonction utilise la syntaxe de base suivante :

agrégat (sum_var ~ group_var, data = df, FUN = moyenne)

où:

  • sum_var : La variable à résumer
  • group_var : La variable à regrouper
  • data : Le nom du bloc de données
  • FUN : La statistique récapitulative à calculer

Ce didacticiel fournit plusieurs exemples d’utilisation de cette fonction pour agréger une ou plusieurs colonnes à la fois dans R, en utilisant le bloc de données suivant comme exemple :

#create data frame
df <- data.frame(team=c('A', 'A', 'A', 'B', 'B', 'B', 'C', 'C'),
                 conf=c('E', 'E', 'W', 'W', 'W', 'W', 'W', 'W'),
                 points=c(1, 3, 3, 4, 5, 7, 7, 9),
                 rebounds=c(7, 7, 8, 3, 2, 7, 14, 13))

#view data frame
df

  team conf points rebounds
1    A    E      1        7
2    A    E      3        7
3    A    W      3        8
4    B    W      4        3
5    B    W      5        2
6    B    W      7        7
7    C    W      7       14
8    C    W      9       13

Exemple 1 : Résumer une variable et regrouper par une variable

Le code suivant montre comment trouver la moyenne des points marqués, regroupés par équipe :

#find mean points scored, grouped by team
aggregate(points ~ team, data = df, FUN = mean, na.rm = TRUE)

  team   points
1    A 2.333333
2    B 5.333333
3    C 8.000000

Exemple 2 : Résumer une variable et regrouper par plusieurs variables

Le code suivant montre comment trouver la moyenne des points marqués, regroupés par équipe et conférence :

#find mean points scored, grouped by team and conference
aggregate(points ~ team + conf, data = df, FUN = mean, na.rm = TRUE)

  team conf   points
1    A    E 2.000000
2    A    W 3.000000
3    B    W 5.333333
4    C    W 8.000000

Exemple 3 : Résumer plusieurs variables et regrouper par une variable

Le code suivant montre comment trouver les moyennes de points et les moyennes de rebonds, regroupés par équipe :

#find mean points scored, grouped by team and conference
aggregate(cbind(points,rebounds) ~ team, data = df, FUN = mean, na.rm = TRUE)

  team   points  rebounds
1    A 2.333333  7.333333
2    B 5.333333  4.000000
3    C 8.000000 13.500000

Exemple 4 : Résumer plusieurs variables et regrouper par plusieurs variables

Le code suivant montre comment trouver les moyennes de points et les moyennes de rebonds, regroupés par équipe et conférence :

#find mean points scored, grouped by team and conference
aggregate(cbind(points,rebounds) ~ team + conf, data = df, FUN = mean, na.rm = TRUE)

  team conf   points rebounds
1    A    E 2.000000      7.0
2    A    W 3.000000      8.0
3    B    W 5.333333      4.0
4    C    W 8.000000     13.5

Ressources additionnelles

Comment calculer la moyenne de plusieurs colonnes dans R
Comment additionner des colonnes spécifiques dans R
Comment additionner des lignes spécifiques dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *