Hoe dubbele rijen in r te verwijderen (met voorbeelden)

Von Dr.benjamin anderson Juli 23, 2023 Gids Keine Kommentare

U kunt een van de volgende twee methoden gebruiken om dubbele rijen uit een dataframe in R te verwijderen:

Methode 1: Gebruik Base R

 #remove duplicate rows across entire data frame
df[ ! duplicated(df), ]

#remove duplicate rows across specific columns of data frame
df[ ! duplicated(df[c(' var1 ')]), ]

Methode 2: gebruik dplyr

 #remove duplicate rows across entire data frame 
df %>%
  distinct(.keep_all = TRUE )

#remove duplicate rows across specific columns of data frame
df %>%
  distinct(var1, .keep_all = TRUE )

De volgende voorbeelden laten zien hoe u deze syntaxis in de praktijk kunt gebruiken met het volgende dataframe:

 #define data frame
df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'),
                 position=c('Guard', 'Guard', 'Forward', 'Guard', 'Center', 'Center'))

#view data frame
df

  team position
1A Guard
2 A Guard
3 A Forward
4 B Guard
5B Center
6B Center

Voorbeeld 1: Dubbele rijen verwijderen met Base R

De volgende code laat zien hoe u dubbele rijen uit een dataframe verwijdert met behulp van R-basisfuncties:

 #remove duplicate rows from data frame
df[ ! duplicated(df), ]

  team position
1A Guard
3 A Forward
4 B Guard
5B Center

De volgende code laat zien hoe u dubbele rijen uit specifieke kolommen in een dataframe verwijdert met behulp van basis R:

 #remove rows where there are duplicates in the 'team' column
df[ ! duplicated(df[c(' team ')]), ]

  team position
1A Guard
4 B Guard

Voorbeeld 2: Dubbele rijen verwijderen met dplyr

De volgende code laat zien hoe u dubbele rijen uit een dataframe verwijdert met behulp van de functie onderscheiden() uit het dplyr- pakket:

 library (dplyr)

#remove duplicate rows from data frame
df %>%
  distinct(.keep_all = TRUE )

  team position
1A Guard
2 A Forward
3 B Guard
4B Center

Merk op dat het argument .keep_all R vertelt om alle kolommen in het originele dataframe te behouden.

De volgende code laat zien hoe u de functie onderscheiden() gebruikt om dubbele rijen uit specifieke kolommen in een dataframe te verwijderen:

 library (dplyr)

#remove duplicate rows from data frame
df %>%
  distinct(team, .keep_all = TRUE )

  team position
1A Guard
2 B Guard

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende functies in R kunt uitvoeren:

Hoe rijen in R te verwijderen op basis van de voorwaarde
Hoe rijen met NA in een specifieke kolom in R te verwijderen

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder

Voorbeeld 1: Dubbele rijen verwijderen met Base R

Voorbeeld 2: Dubbele rijen verwijderen met dplyr

Aanvullende bronnen

Über den Autor

Dr.benjamin anderson

Einen Kommentar hinzufügen