Hoe duplicaten in r te tellen: met voorbeelden

Von Dr.benjamin anderson Juli 14, 2023 Gids Keine Kommentare

U kunt de volgende methoden gebruiken om duplicaten in een dataframe in R te tellen:

Methode 1: Tel dubbele waarden in een kolom

 sum(duplicated(df$my_column))

Methode 2: Tel dubbele rijen

 nrow(df[duplicated(df), ])

Methode 3: Tel duplicaten voor elke unieke rij

 library (dplyr)

df %>% group_by_all() %>% count

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met het volgende dataframe in R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Voorbeeld 1: Tel dubbele waarden in een kolom

De volgende code laat zien hoe u het aantal dubbele waarden in de puntenkolom telt:

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

We kunnen zien dat er 4 dubbele waarden in de puntenkolom staan.

Voorbeeld 2: Tel dubbele rijen

De volgende code laat zien hoe u het aantal dubbele rijen in het gegevensframe kunt tellen:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

We kunnen zien dat er twee dubbele rijen in het dataframe staan.

We kunnen de volgende syntaxis gebruiken om deze 2 dubbele regels weer te geven:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Voorbeeld 3: Tel duplicaten voor elke unieke rij

De volgende code laat zien hoe u het aantal duplicaten voor elke unieke rij in het dataframe telt:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

Kolom n toont het aantal duplicaten voor elke unieke rij.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:

Hoe dubbele elementen te vinden met dplyr
Hoe dubbele regels in R te verwijderen
Hoe dubbele regels in R te verwijderen, zodat er geen meer over zijn

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder