Hoe duplicaten in r te tellen: met voorbeelden
U kunt de volgende methoden gebruiken om duplicaten in een dataframe in R te tellen:
Methode 1: Tel dubbele waarden in een kolom
sum(duplicated(df$my_column))
Methode 2: Tel dubbele rijen
nrow(df[duplicated(df), ])
Methode 3: Tel duplicaten voor elke unieke rij
library (dplyr)
df %>% group_by_all() %>% count
De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met het volgende dataframe in R:
#create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
points=c(5, 5, 8, 10, 5, 7, 10, 10))
#view data frame
df
team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10
Voorbeeld 1: Tel dubbele waarden in een kolom
De volgende code laat zien hoe u het aantal dubbele waarden in de puntenkolom telt:
#count number of duplicate values in points column
sum(duplicated(df$points))
[1] 4
We kunnen zien dat er 4 dubbele waarden in de puntenkolom staan.
Voorbeeld 2: Tel dubbele rijen
De volgende code laat zien hoe u het aantal dubbele rijen in het gegevensframe kunt tellen:
#count number of duplicate rows
nrow(df[duplicated(df), ])
[1] 2
We kunnen zien dat er twee dubbele rijen in het dataframe staan.
We kunnen de volgende syntaxis gebruiken om deze 2 dubbele regels weer te geven:
#display duplicated rows
df[duplicated(df), ]
team position points
2 AG 5
8 BF 10
Voorbeeld 3: Tel duplicaten voor elke unieke rij
De volgende code laat zien hoe u het aantal duplicaten voor elke unieke rij in het dataframe telt:
library (dplyr)
#count number of duplicate rows in data frame
df %>% group_by_all() %>% count
# A tibble: 6 x 4
# Groups: team, position, points [6]
team position points n
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1
Kolom n toont het aantal duplicaten voor elke unieke rij.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:
Hoe dubbele elementen te vinden met dplyr
Hoe dubbele regels in R te verwijderen
Hoe dubbele regels in R te verwijderen, zodat er geen meer over zijn