A: как использовать drop_na для удаления строк с пропущенными значениями


Вы можете использовать функцию drop_na() из пакета Tidyr в R, чтобы удалить строки с отсутствующими значениями во фрейме данных.

Существует три распространенных способа использования этой функции:

Способ 1: удалить строки с пропущенными значениями в любом столбце

 df %>% drop_na()

Способ 2: удалить строки с пропущенными значениями в определенном столбце

 df %>% drop_na(col1)

Способ 3. Удаление строк с пропущенными значениями в одном из нескольких определенных столбцов.

 df %>% drop_na(c(col1, col2))

Следующие примеры показывают, как использовать каждый из этих методов на практике со следующим фреймом данных:

 #create data frame
df <- data. frame (points=c(10, NA, 15, 15, 14, 16),
                 assists=c(4, NA, 4, NA, 9, 3),
                 rebounds=c(NA, 5, 10, 7, 7, NA))

#view data frame
df

  points assists rebounds
1 10 4 NA
2 NA NA 5
3 15 4 10
4 15 NA 7
5 14 9 7
6 16 3 NA

Пример 1. Удаление строк с пропущенными значениями в любом столбце

Следующий код показывает, как использовать drop_na() для удаления строк с отсутствующими значениями в любом столбце:

 library (tidyr)

#drop rows with missing values in any column
df %>% drop_na()

  points assists rebounds
1 15 4 10
2 14 9 7

Остаются только строки, которые не содержат пропущенных значений ни в одном столбце.

Пример 2. Удаление строк с пропущенными значениями в определенном столбце

Следующий код показывает, как использовать drop_na() для удаления строк с отсутствующими значениями в столбце отказов :

 library (tidyr)

#drop rows with missing values in rebounds column
df %>% drop_na(rebounds)

  points assists rebounds
1 NA NA 5
2 15 4 10
3 15 NA 7
4 14 9 7

Остаются только строки без пропущенных значений в столбце отказов .

Пример 3. Удаление строк с пропущенными значениями в одном из нескольких определенных столбцов

Следующий код показывает, как использовать drop_na() для удаления строк с отсутствующими значениями в столбцах очков или передач :

 library (tidyr)

#drop rows with missing values in the points or assists columns
df %>% drop_na(c(points, assists))

  points assists rebounds
1 10 4 NA
2 15 4 10
3 14 9 7
4 16 3 NA

Остались только строки без пропущенных значений в столбцах очков или передач .

Примечание. Полную онлайн-документацию по методу drop_na() можно найти здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как получить номера строк в R
Как добавить строки во фрейм данных в R
Как применить функцию к каждой строке фрейма данных в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *