So entfernen sie doppelte zeilen in r, sodass keine mehr übrig sind


Sie können in R die folgenden Methoden verwenden, um doppelte Zeilen aus einem Datenrahmen zu entfernen, sodass keine im resultierenden Datenrahmen verbleiben:

Methode 1: Verwenden Sie Base R

 new_df <- df[ ! (duplicated(df) | duplicated(df, fromLast= TRUE )), ]

Methode 2: dplyr verwenden

 library (dplyr)

new_df <- df %>%
          group_by(across(everything())) %>%
          filter(n() == 1 )

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Datenrahmen verwendet wird:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(20, 20, 28, 14, 13, 18, 27, 13))

#view data frame
df

  team points
1 to 20
2 to 20
3 to 28
4 to 14
5 B 13
6 B 18
7 B 27
8 B 13

Beispiel 1: Base R verwenden

Der folgende Code zeigt, wie Sie mit R-Basisfunktionen doppelte Zeilen aus dem Datenrahmen entfernen, sodass keine übrig bleiben:

 #create new data frame that removes duplicates so none are left
new_df <- df[ ! (duplicated(df) | duplicated(df, fromLast= TRUE )), ]

#view new data frame
new_df

  team points
3 to 28
4 to 14
6 B 18
7 B 27

Beachten Sie, dass jede der doppelten Zeilen aus dem Datenrahmen entfernt wurde und keines der Duplikate erhalten bleibt.

Beispiel 2: Verwendung von dplyr

Der folgende Code zeigt, wie Sie die Funktionen im dplyr- Paket in R verwenden, um doppelte Zeilen aus dem Datenrahmen zu entfernen, sodass keine übrig bleiben:

 library (dplyr)

#create new data frame that removes duplicates so none are left
new_df <- df %>%
          group_by(across(everything())) %>%
          filter(n() == 1 )

#view new data frame
new_df

# A tibble: 4 x 2
# Groups: team, points [4]
  team points
    
1 to 28
2 to 14
3 B 18
4 B 27

Beachten Sie, dass jede der doppelten Zeilen aus dem Datenrahmen entfernt wurde und keines der Duplikate erhalten bleibt.

Beachten Sie außerdem, dass dies zum gleichen Ergebnis führt wie die vorherige Methode.

Hinweis : Bei extrem großen Datenrahmen ist die dplyr-Methode schneller als die Basis-R-Methode.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere allgemeine Funktionen in R ausführen:

So löschen Sie Zeilen in R basierend auf der Bedingung
So löschen Sie Zeilen mit NA in einer bestimmten Spalte in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert