Comment joindre plusieurs trames de données à l’aide de dplyr



Souvent, vous pourriez être intéressé à joindre plusieurs trames de données dans R. Heureusement, cela est facile à faire en utilisant la fonction left_join() du package dplyr .

library(dplyr)

Par exemple, supposons que nous disposions des trois trames de données suivantes :

#create data frame
df1 <- data.frame(a = c('a', 'b', 'c', 'd', 'e', 'f'),
                  b = c(12, 14, 14, 18, 22, 23))

df2 <- data.frame(a = c('a', 'a', 'a', 'b', 'b', 'b'),
                  c = c(23, 24, 33, 34, 37, 41))

df3 <- data.frame(a = c('d', 'e', 'f', 'g', 'h', 'i'),
                  d = c(23, 24, 33, 34, 37, 41))

Pour joindre les trois blocs de données ensemble, nous pouvons simplement effectuer deux jointures gauches, l’une après l’autre :

#join the three data frames
df1 %>%
    left_join(df2, by='a') %>%
    left_join(df3, by='a')

   a  b  c  d
1  a 12 23 NA
2  a 12 24 NA
3  a 12 33 NA
4  b 14 34 NA
5  b 14 37 NA
6  b 14 41 NA
7  c 14 NA NA
8  d 18 NA 23
9  e 22 NA 24
10 f 23 NA 33

Notez que vous pouvez également enregistrer le résultat de cette jointure sous forme de bloc de données :

#join the three data frames and save result as new data frame named all_data
all_data <- df1 %>%
              left_join(df2, by='a') %>%
              left_join(df3, by='a')

#view summary of resulting data frame
glimpse(all_data)

Observations: 10
Variables: 4
$ a <chr> "a", "a", "a", "b", "b", "b", "c", "d", "e", "f"
$ b <dbl> 12, 12, 12, 14, 14, 14, 14, 18, 22, 23
$ c <dbl> 23, 24, 33, 34, 37, 41, NA, NA, NA, NA
$ d <dbl> NA, NA, NA, NA, NA, NA, NA, 23, 24, 33

Ressources additionnelles

Comment filtrer les lignes dans R
Comment supprimer les lignes en double dans R
Comment regrouper et résumer des données dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *