So führen sie eine datenbereinigung in r durch (mit beispiel)


Unter Datenbereinigung versteht man den Prozess der Umwandlung von Rohdaten in Daten, die für die Analyse oder Modellbildung geeignet sind.

In den meisten Fällen umfasst die „Bereinigung“ eines Datensatzes den Umgang mit fehlenden Werten und doppelten Daten.

Hier sind die gängigsten Methoden zum „Bereinigen“ eines Datensatzes in R:

Methode 1: Zeilen mit fehlenden Werten entfernen

 library (dplyr)

#remove rows with any missing values
df %>% na. omit ()

Methode 2: Fehlende Werte durch einen anderen Wert ersetzen

 library (dplyr)
library (tidyr)

#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is. numeric ), ~replace_na(., median(., na. rm = TRUE ))))

Methode 3: Doppelte Zeilen entfernen

 library (dplyr)

df %>% distinct(. keep_all = TRUE )

Die folgenden Beispiele zeigen, wie jede dieser Methoden in der Praxis mit dem folgenden Datenrahmen in R verwendet wird, der Informationen über verschiedene Basketballspieler enthält:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'),
                 points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8),
                 rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11),
                 assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14))

#view data frame
df

   team points rebound assists
1 to 4 9 2
2 to 4 9 2
3 B NA 7 NA
4 C 8 6 7
5 D 6 8 6
6 E 12 NA 6
7 F 14 9 9
8 G 86 14 10
9:13:12 NA
10 I 8 11 14

Beispiel 1: Zeilen mit fehlenden Werten löschen

Wir können die folgende Syntax verwenden, um Zeilen mit fehlenden Werten in einer beliebigen Spalte zu entfernen:

 library (dplyr)

#remove rows with missing values
new_df <- df %>% na. omit ()

#view new data frame
new_df

   team points rebound assists
1 to 4 9 2
2 to 4 9 2
4 C 8 6 7
5 D 6 8 6
7 F 14 9 9
8 G 86 14 10
10 I 8 11 14

Beachten Sie, dass der neue Datenrahmen keine Zeilen mit fehlenden Werten enthält.

Beispiel 2: Fehlende Werte durch einen anderen Wert ersetzen

Wir können die folgende Syntax verwenden, um fehlende Werte durch den Medianwert jeder Spalte zu ersetzen:

 library (dplyr)
library (tidyr)

#replace missing values in each numeric column with median value of column
new_df <-df %>% mutate(across(where(is. numeric ),~replace_na(.,median(.,na. rm = TRUE )))) 

#view new data frame
new_df

   team points rebound assists
1 to 4 9 2.0
2 to 4 9 2.0
3 B 8 7 6.5
4 C 8 6 7.0
5 D 6 8 6.0
6 E 12 9 6.0
7 F 14 9 9.0
8 G 86 14 10.0
9:13 12 6.5
10 I 8 11 14.0

Beachten Sie, dass die fehlenden Werte in jeder numerischen Spalte jeweils durch den Medianwert der Spalte ersetzt wurden.

Beachten Sie, dass Sie den Median in der Formel auch durch den Mittelwert ersetzen können, um fehlende Werte durch den Mittelwert jeder Spalte zu ersetzen.

Hinweis : In diesem Beispiel mussten wir auch das Tidyr- Paket laden, da die Funktion drop_na() aus diesem Paket stammt.

Beispiel 3: Doppelte Zeilen entfernen

Wir können die folgende Syntax verwenden, um fehlende Werte durch den Medianwert jeder Spalte zu ersetzen:

 library (dplyr)

#remove duplicate rows
new_df <- df %>% distinct(. keep_all = TRUE )

#view new data frame
new_df

  team points rebound assists
1 to 4 9 2
2 B NA 7 NA
3 C 8 6 7
4 D 6 8 6
5 E 12 NA 6
6 F 14 9 9
7 G 86 14 10
8:13:12 NA
9 I 8 11 14

Beachten Sie, dass die zweite Zeile aus dem Datenrahmen entfernt wurde, da jeder der Werte in der zweiten Zeile Duplikate der Werte in der ersten Zeile war.

Hinweis : Die vollständige Dokumentation für die dplyr- diint()- Funktion finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in R ausführen:

So gruppieren und fassen Sie Daten in R zusammen
So erstellen Sie Übersichtstabellen in R
So löschen Sie Zeilen mit fehlenden Werten in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert