A: tel het aantal na-waarden in elke kolom


U kunt de volgende methoden gebruiken om het aantal NA-waarden in elke kolom van een dataframe in R te tellen:

Methode 1: Tel NA-waarden in elke kolom met basis R

 sapply(df, function (x) sum(is. na (x)))

Methode 2: Tel NA-waarden in elke kolom met behulp van dplyr

 library (dplyr)

df %>% summarise(across(everything(), ~ sum(is. na (.))))

De volgende voorbeelden laten zien hoe u elke methode kunt gebruiken met het volgende dataframe in R:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, NA),
                 assists=c(33, NA, NA, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#view data frame
df

  team points assists rebounds
1 A 99 33 30
2 B 90 NA 28
3 C 86 NA 24
4 D 88 39 24
5 E NA 34 28

Voorbeeld 1: Tel NA-waarden in elke kolom met basis R

De volgende code laat zien hoe je het aantal NA-waarden in elke kolom kunt tellen met behulp van de R base sapply() functie:

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

Uit het resultaat kunnen we zien:

  • De teamkolom heeft 0 NA-waarden.
  • De puntenkolom heeft 1 NA-waarde.
  • De assistskolom heeft 2 NA-waarden.
  • De bouncekolom heeft 0 NA-waarden.

Opmerking : de functie sapply() kan worden gebruikt om een functie op elke kolom in het dataframe toe te passen. In dit voorbeeld passen we een functie toe die het totale aantal elementen telt dat gelijk is aan NA.

Voorbeeld 2: Tel NA-waarden in elke kolom met behulp van dplyr

De volgende code laat zien hoe u het aantal NA-waarden in elke kolom kunt tellen met behulp van de summarise() functie uit het dplyr- pakket:

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

Uit het resultaat kunnen we zien:

  • De teamkolom heeft 0 NA-waarden.
  • De puntenkolom heeft 1 NA-waarde.
  • De assistskolom heeft 2 NA-waarden.
  • De bouncekolom heeft 0 NA-waarden.

Deze resultaten komen overeen met die van het vorige voorbeeld.

Opmerking : de dplyr-methode is doorgaans sneller dan de basis-R-methode bij het werken met extreem grote dataframes.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:

Hoe na.omit te gebruiken in R
Complete.cases gebruiken in R
Hoe lege regels uit het dataframe in R te verwijderen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert