Como remover linhas duplicadas em r (com exemplos)


Você pode usar um dos dois métodos para remover linhas duplicadas de um quadro de dados em R:

Método 1: Use Base R

 #remove duplicate rows across entire data frame
df[ ! duplicated(df), ]

#remove duplicate rows across specific columns of data frame
df[ ! duplicated(df[c(' var1 ')]), ]

Método 2: use dplyr

 #remove duplicate rows across entire data frame 
df %>%
  distinct(.keep_all = TRUE )

#remove duplicate rows across specific columns of data frame
df %>%
  distinct(var1, .keep_all = TRUE )

Os exemplos a seguir mostram como usar essa sintaxe na prática com o seguinte quadro de dados:

 #define data frame
df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'),
                 position=c('Guard', 'Guard', 'Forward', 'Guard', 'Center', 'Center'))

#view data frame
df

  team position
1A Guard
2 A Guard
3 A Forward
4 B Guard
5B Center
6B Center

Exemplo 1: Remover linhas duplicadas usando Base R

O código a seguir mostra como remover linhas duplicadas de um quadro de dados usando funções base R:

 #remove duplicate rows from data frame
df[ ! duplicated(df), ]

  team position
1A Guard
3 A Forward
4 B Guard
5B Center

O código a seguir mostra como remover linhas duplicadas de colunas específicas em um quadro de dados usando base R:

 #remove rows where there are duplicates in the 'team' column
df[ ! duplicated(df[c(' team ')]), ]

  team position
1A Guard
4 B Guard

Exemplo 2: Remova linhas duplicadas usando dplyr

O código a seguir mostra como remover linhas duplicadas de um quadro de dados usando a função distinta() do pacote dplyr :

 library (dplyr)

#remove duplicate rows from data frame
df %>%
  distinct(.keep_all = TRUE )

  team position
1A Guard
2 A Forward
3 B Guard
4B Center

Observe que o argumento .keep_all diz ao R para manter todas as colunas no quadro de dados original.

O código a seguir mostra como usar a função distinta() para remover linhas duplicadas de colunas específicas em um quadro de dados:

 library (dplyr)

#remove duplicate rows from data frame
df %>%
  distinct(team, .keep_all = TRUE )

  team position
1A Guard
2 B Guard

Recursos adicionais

Os tutoriais a seguir explicam como executar outras funções comuns em R:

Como excluir linhas em R com base na condição
Como deletar linhas com NA em uma coluna específica em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *