Hoe dubbele rijen in r te verwijderen (met voorbeelden)
U kunt een van de volgende twee methoden gebruiken om dubbele rijen uit een dataframe in R te verwijderen:
Methode 1: Gebruik Base R
#remove duplicate rows across entire data frame df[ ! duplicated(df), ] #remove duplicate rows across specific columns of data frame df[ ! duplicated(df[c(' var1 ')]), ]
Methode 2: gebruik dplyr
#remove duplicate rows across entire data frame df %>% distinct(.keep_all = TRUE ) #remove duplicate rows across specific columns of data frame df %>% distinct(var1, .keep_all = TRUE )
De volgende voorbeelden laten zien hoe u deze syntaxis in de praktijk kunt gebruiken met het volgende dataframe:
#define data frame df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'), position=c('Guard', 'Guard', 'Forward', 'Guard', 'Center', 'Center')) #view data frame df team position 1A Guard 2 A Guard 3 A Forward 4 B Guard 5B Center 6B Center
Voorbeeld 1: Dubbele rijen verwijderen met Base R
De volgende code laat zien hoe u dubbele rijen uit een dataframe verwijdert met behulp van R-basisfuncties:
#remove duplicate rows from data frame
df[ ! duplicated(df), ]
team position
1A Guard
3 A Forward
4 B Guard
5B Center
De volgende code laat zien hoe u dubbele rijen uit specifieke kolommen in een dataframe verwijdert met behulp van basis R:
#remove rows where there are duplicates in the 'team' column
df[ ! duplicated(df[c(' team ')]), ]
team position
1A Guard
4 B Guard
Voorbeeld 2: Dubbele rijen verwijderen met dplyr
De volgende code laat zien hoe u dubbele rijen uit een dataframe verwijdert met behulp van de functie onderscheiden() uit het dplyr- pakket:
library (dplyr) #remove duplicate rows from data frame df %>% distinct(.keep_all = TRUE ) team position 1A Guard 2 A Forward 3 B Guard 4B Center
Merk op dat het argument .keep_all R vertelt om alle kolommen in het originele dataframe te behouden.
De volgende code laat zien hoe u de functie onderscheiden() gebruikt om dubbele rijen uit specifieke kolommen in een dataframe te verwijderen:
library (dplyr) #remove duplicate rows from data frame df %>% distinct(team, .keep_all = TRUE ) team position 1A Guard 2 B Guard
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende functies in R kunt uitvoeren:
Hoe rijen in R te verwijderen op basis van de voorwaarde
Hoe rijen met NA in een specifieke kolom in R te verwijderen