A: zählen sie die anzahl der na-werte in jeder spalte


Sie können die folgenden Methoden verwenden, um die Anzahl der NA-Werte in jeder Spalte eines Datenrahmens in R zu zählen:

Methode 1: Zählen Sie die NA-Werte in jeder Spalte mit der Basis R

 sapply(df, function (x) sum(is. na (x)))

Methode 2: Zählen Sie die NA-Werte in jeder Spalte mit dplyr

 library (dplyr)

df %>% summarise(across(everything(), ~ sum(is. na (.))))

Die folgenden Beispiele zeigen, wie jede Methode mit dem folgenden Datenrahmen in R verwendet wird:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, NA),
                 assists=c(33, NA, NA, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#view data frame
df

  team points assists rebounds
1 A 99 33 30
2 B 90 NA 28
3 C 86 NA 24
4 D 88 39 24
5 E NA 34 28

Beispiel 1: Zählen Sie die NA-Werte in jeder Spalte mit der Basis R

Der folgende Code zeigt, wie die Anzahl der NA-Werte in jeder Spalte mithilfe der R-Basisfunktion sapply() gezählt wird:

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

Aus dem Ergebnis können wir sehen:

  • Die Teamspalte hat 0 NA-Werte.
  • Die Punktespalte hat 1 NA-Wert.
  • Die Assists- Spalte enthält 2 NA-Werte.
  • Die Spalte „Bounces“ enthält 0 NA-Werte.

Hinweis : Mit der Funktion sapply() kann eine Funktion auf jede Spalte im Datenrahmen angewendet werden. In diesem Beispiel wenden wir eine Funktion an, die die Gesamtzahl der Elemente gleich NA zählt.

Beispiel 2: NA-Werte in jeder Spalte mit dplyr zählen

Der folgende Code zeigt, wie die Anzahl der NA-Werte in jeder Spalte mithilfe der Funktion summarise() aus dem dplyr -Paket gezählt wird:

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

Aus dem Ergebnis können wir sehen:

  • Die Teamspalte hat 0 NA-Werte.
  • Die Punktespalte hat 1 NA-Wert.
  • Die Assists- Spalte enthält 2 NA-Werte.
  • Die Spalte „Bounces“ enthält 0 NA-Werte.

Diese Ergebnisse entsprechen denen des vorherigen Beispiels.

Hinweis : Die dplyr-Methode ist tendenziell schneller als die Basis-R-Methode, wenn mit extrem großen Datenrahmen gearbeitet wird.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in R ausführen:

So verwenden Sie na.omit in R
So verwenden Sie Complete.cases in R
So entfernen Sie Leerzeilen aus dem Datenrahmen in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert