A: підрахувати кількість значень na в кожному стовпці


Ви можете використовувати такі методи, щоб підрахувати кількість значень NA в кожному стовпці кадру даних у R:

Спосіб 1: підрахуйте значення NA в кожному стовпці, використовуючи основу R

 sapply(df, function (x) sum(is. na (x)))

Спосіб 2: підрахуйте значення NA в кожному стовпці за допомогою dplyr

 library (dplyr)

df %>% summarise(across(everything(), ~ sum(is. na (.))))

У наведених нижче прикладах показано, як використовувати кожен метод із таким кадром даних у R:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, NA),
                 assists=c(33, NA, NA, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#view data frame
df

  team points assists rebounds
1 A 99 33 30
2 B 90 NA 28
3 C 86 NA 24
4 D 88 39 24
5 E NA 34 28

Приклад 1: підрахуйте значення NA в кожному стовпці з використанням основи R

Наступний код показує, як підрахувати кількість значень NA у кожному стовпці за допомогою функції R base sapply() :

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

З результату ми бачимо:

  • Стовпець команди має 0 значень NA.
  • Стовпець балів має значення 1 NA.
  • Стовпець передач має 2 значення NA.
  • Стовпець відмов має значення 0 NA.

Примітка . Функцію sapply() можна використовувати для застосування функції до кожного стовпця у кадрі даних. У цьому прикладі ми застосовуємо функцію, яка підраховує загальну кількість елементів, що дорівнює NA.

Приклад 2: підрахуйте значення NA в кожному стовпці за допомогою dplyr

Наступний код показує, як підрахувати кількість значень NA в кожному стовпці за допомогою функції summarise() з пакету dplyr :

 #count NA values in each column
sapply(df, function (x) sum(is. na (x)))

    team points assists rebounds 
       0 1 2 0

З результату ми бачимо:

  • Стовпець команди має 0 значень NA.
  • Стовпець балів має значення 1 NA.
  • Стовпець передач має 2 значення NA.
  • Стовпець відмов має значення 0 NA.

Ці результати відповідають результатам попереднього прикладу.

Примітка . Метод dplyr, як правило, швидше, ніж базовий метод R, коли працює з надзвичайно великими кадрами даних.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в R:

Як використовувати na.omit у R
Як використовувати complete.cases у R
Як видалити порожні рядки з кадру даних у R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *