So entfernen sie doppelte zeilen in r (mit beispielen)

Von Dr. Benjamin Anderson Juli 23, 2023 Führung Keine Kommentare

Sie können eine von zwei Methoden verwenden, um doppelte Zeilen aus einem Datenrahmen in R zu entfernen:

Methode 1: Verwenden Sie Base R

 #remove duplicate rows across entire data frame
df[ ! duplicated(df), ]

#remove duplicate rows across specific columns of data frame
df[ ! duplicated(df[c(' var1 ')]), ]

Methode 2: dplyr verwenden

 #remove duplicate rows across entire data frame 
df %>%
  distinct(.keep_all = TRUE )

#remove duplicate rows across specific columns of data frame
df %>%
  distinct(var1, .keep_all = TRUE )

Die folgenden Beispiele zeigen, wie diese Syntax in der Praxis mit dem folgenden Datenrahmen verwendet werden kann:

 #define data frame
df <- data. frame (team=c('A', 'A', 'A', 'B', 'B', 'B'),
                 position=c('Guard', 'Guard', 'Forward', 'Guard', 'Center', 'Center'))

#view data frame
df

  team position
1A Guard
2 A Guard
3 A Forward
4 B Guard
5B Center
6B Center

Beispiel 1: Doppelte Zeilen mit Base R entfernen

Der folgende Code zeigt, wie Sie mithilfe von R-Basisfunktionen doppelte Zeilen aus einem Datenrahmen entfernen:

 #remove duplicate rows from data frame
df[ ! duplicated(df), ]

  team position
1A Guard
3 A Forward
4 B Guard
5B Center

Der folgende Code zeigt, wie Sie mit Basis R doppelte Zeilen aus bestimmten Spalten in einem Datenrahmen entfernen:

 #remove rows where there are duplicates in the 'team' column
df[ ! duplicated(df[c(' team ')]), ]

  team position
1A Guard
4 B Guard

Beispiel 2: Doppelte Zeilen mit dplyr entfernen

Der folgende Code zeigt, wie Sie doppelte Zeilen aus einem Datenrahmen mithilfe der Funktion „distinct()“ aus dem Paket „dplyr“ entfernen:

 library (dplyr)

#remove duplicate rows from data frame
df %>%
  distinct(.keep_all = TRUE )

  team position
1A Guard
2 A Forward
3 B Guard
4B Center

Beachten Sie, dass das Argument .keep_all R anweist, alle Spalten im ursprünglichen Datenrahmen beizubehalten.

Der folgende Code zeigt, wie Sie mit der Funktion „distinct()“ doppelte Zeilen aus bestimmten Spalten in einem Datenrahmen entfernen:

 library (dplyr)

#remove duplicate rows from data frame
df %>%
  distinct(team, .keep_all = TRUE )

  team position
1A Guard
2 B Guard

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere allgemeine Funktionen in R ausführen:

So löschen Sie Zeilen in R basierend auf der Bedingung
So löschen Sie Zeilen mit NA in einer bestimmten Spalte in R

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel 1: Doppelte Zeilen mit Base R entfernen

Beispiel 2: Doppelte Zeilen mit dplyr entfernen

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen