Odp.: policz liczbę wartości na w każdej kolumnie


Możesz użyć następujących metod, aby policzyć liczbę wartości NA w każdej kolumnie ramki danych w R:

Metoda 1: Policz wartości NA w każdej kolumnie, używając podstawy R

 sapply(df, function (x) sum(is. na (x)))

Metoda 2: Policz wartości NA w każdej kolumnie za pomocą dplyr

 library (dplyr)

df %>% summarise(across(everything(), ~ sum(is. na (.))))

Poniższe przykłady pokazują, jak używać każdej metody z następującą ramką danych w R:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, NA),
                 assists=c(33, NA, NA, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#view data frame
df

  team points assists rebounds
1 A 99 33 30
2 B 90 NA 28
3 C 86 NA 24
4 D 88 39 24
5 E NA 34 28

Przykład 1: Policz wartości NA w każdej kolumnie, używając podstawy R

Poniższy kod pokazuje, jak policzyć liczbę wartości NA w każdej kolumnie za pomocą funkcji bazowej R sapply() :

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

Z wyniku możemy zobaczyć:

  • Kolumna zespołu ma wartości 0 NA.
  • Kolumna punktów ma 1 wartość NA.
  • Kolumna asyst zawiera 2 wartości NA.
  • Kolumna „odbicia” ma wartości 0 NA.

Uwaga : Funkcji sapply() można użyć do zastosowania funkcji do każdej kolumny w ramce danych. W tym przykładzie stosujemy funkcję, która zlicza całkowitą liczbę elementów równą NA.

Przykład 2: Policz wartości NA w każdej kolumnie za pomocą dplyr

Poniższy kod pokazuje, jak policzyć liczbę wartości NA w każdej kolumnie za pomocą funkcji podsumowania() z pakietu dplyr :

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

Z wyniku możemy zobaczyć:

  • Kolumna zespołu ma wartości 0 NA.
  • Kolumna punktów ma 1 wartość NA.
  • Kolumna asyst zawiera 2 wartości NA.
  • Kolumna „odbicia” ma wartości 0 NA.

Wyniki te odpowiadają wynikom z poprzedniego przykładu.

Uwaga : Metoda dplyr jest zwykle szybsza niż podstawowa metoda R podczas pracy z bardzo dużymi ramkami danych.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:

Jak używać na.omit w R
Jak używać kompletnych.cases w R
Jak usunąć puste linie z ramki danych w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *