So führen sie eine datenbereinigung in r durch (mit beispiel)
Unter Datenbereinigung versteht man den Prozess der Umwandlung von Rohdaten in Daten, die für die Analyse oder Modellbildung geeignet sind.
In den meisten Fällen umfasst die „Bereinigung“ eines Datensatzes den Umgang mit fehlenden Werten und doppelten Daten.
Hier sind die gängigsten Methoden zum „Bereinigen“ eines Datensatzes in R:
Methode 1: Zeilen mit fehlenden Werten entfernen
library (dplyr) #remove rows with any missing values df %>% na. omit ()
Methode 2: Fehlende Werte durch einen anderen Wert ersetzen
library (dplyr) library (tidyr) #replace missing values in each numeric column with median value of column df %>% mutate(across(where(is. numeric ), ~replace_na(., median(., na. rm = TRUE ))))
Methode 3: Doppelte Zeilen entfernen
library (dplyr) df %>% distinct(. keep_all = TRUE )
Die folgenden Beispiele zeigen, wie jede dieser Methoden in der Praxis mit dem folgenden Datenrahmen in R verwendet wird, der Informationen über verschiedene Basketballspieler enthält:
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'), points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8), rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11), assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14)) #view data frame df team points rebound assists 1 to 4 9 2 2 to 4 9 2 3 B NA 7 NA 4 C 8 6 7 5 D 6 8 6 6 E 12 NA 6 7 F 14 9 9 8 G 86 14 10 9:13:12 NA 10 I 8 11 14
Beispiel 1: Zeilen mit fehlenden Werten löschen
Wir können die folgende Syntax verwenden, um Zeilen mit fehlenden Werten in einer beliebigen Spalte zu entfernen:
library (dplyr) #remove rows with missing values new_df <- df %>% na. omit () #view new data frame new_df team points rebound assists 1 to 4 9 2 2 to 4 9 2 4 C 8 6 7 5 D 6 8 6 7 F 14 9 9 8 G 86 14 10 10 I 8 11 14
Beachten Sie, dass der neue Datenrahmen keine Zeilen mit fehlenden Werten enthält.
Beispiel 2: Fehlende Werte durch einen anderen Wert ersetzen
Wir können die folgende Syntax verwenden, um fehlende Werte durch den Medianwert jeder Spalte zu ersetzen:
library (dplyr) library (tidyr) #replace missing values in each numeric column with median value of column new_df <-df %>% mutate(across(where(is. numeric ),~replace_na(.,median(.,na. rm = TRUE )))) #view new data frame new_df team points rebound assists 1 to 4 9 2.0 2 to 4 9 2.0 3 B 8 7 6.5 4 C 8 6 7.0 5 D 6 8 6.0 6 E 12 9 6.0 7 F 14 9 9.0 8 G 86 14 10.0 9:13 12 6.5 10 I 8 11 14.0
Beachten Sie, dass die fehlenden Werte in jeder numerischen Spalte jeweils durch den Medianwert der Spalte ersetzt wurden.
Beachten Sie, dass Sie den Median in der Formel auch durch den Mittelwert ersetzen können, um fehlende Werte durch den Mittelwert jeder Spalte zu ersetzen.
Hinweis : In diesem Beispiel mussten wir auch das Tidyr- Paket laden, da die Funktion drop_na() aus diesem Paket stammt.
Beispiel 3: Doppelte Zeilen entfernen
Wir können die folgende Syntax verwenden, um fehlende Werte durch den Medianwert jeder Spalte zu ersetzen:
library (dplyr) #remove duplicate rows new_df <- df %>% distinct(. keep_all = TRUE ) #view new data frame new_df team points rebound assists 1 to 4 9 2 2 B NA 7 NA 3 C 8 6 7 4 D 6 8 6 5 E 12 NA 6 6 F 14 9 9 7 G 86 14 10 8:13:12 NA 9 I 8 11 14
Beachten Sie, dass die zweite Zeile aus dem Datenrahmen entfernt wurde, da jeder der Werte in der zweiten Zeile Duplikate der Werte in der ersten Zeile war.
Hinweis : Die vollständige Dokumentation für die dplyr- diint()- Funktion finden Sie hier .
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in R ausführen:
So gruppieren und fassen Sie Daten in R zusammen
So erstellen Sie Übersichtstabellen in R
So löschen Sie Zeilen mit fehlenden Werten in R