Как выполнить очистку данных в r (с примером)

К бенджамин андерсон 13 июля, 2023 Гид 0 комментариев

Очистка данных — это процесс преобразования необработанных данных в данные, пригодные для анализа или построения моделей.

В большинстве случаев «очистка» набора данных предполагает работу с пропущенными значениями и повторяющимися данными.

Вот наиболее распространенные методы «очистки» набора данных в R:

Способ 1. Удаление строк с пропущенными значениями

 library (dplyr)

#remove rows with any missing values
df %>% na. omit ()

Способ 2: заменить пропущенные значения другим значением

 library (dplyr)
library (tidyr)

#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is. numeric ), ~replace_na(., median(., na. rm = TRUE ))))

Способ 3: удалить повторяющиеся строки

 library (dplyr)

df %>% distinct(. keep_all = TRUE )

В следующих примерах показано, как использовать каждый из этих методов на практике со следующим фреймом данных в R, который содержит информацию о различных баскетболистах:

 #create data frame
df <- data. frame (team=c('A', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'),
                 points=c(4, 4, NA, 8, 6, 12, 14, 86, 13, 8),
                 rebounds=c(9, 9, 7, 6, 8, NA, 9, 14, 12, 11),
                 assists=c(2, 2, NA, 7, 6, 6, 9, 10, NA, 14))

#view data frame
df

   team points rebound assists
1 to 4 9 2
2 to 4 9 2
3 B NA 7 NA
4 C 8 6 7
5 D 6 8 6
6 E 12 NA 6
7 F 14 9 9
8 G 86 14 10
9:13:12 NA
10 I 8 11 14

Пример 1. Удаление строк с пропущенными значениями

Мы можем использовать следующий синтаксис для удаления строк с отсутствующими значениями в любом столбце:

 library (dplyr)

#remove rows with missing values
new_df <- df %>% na. omit ()

#view new data frame
new_df

   team points rebound assists
1 to 4 9 2
2 to 4 9 2
4 C 8 6 7
5 D 6 8 6
7 F 14 9 9
8 G 86 14 10
10 I 8 11 14

Обратите внимание, что новый фрейм данных не содержит строк с пропущенными значениями.

Пример 2: Заменить пропущенные значения другим значением

Мы можем использовать следующий синтаксис, чтобы заменить пропущенные значения медианным значением каждого столбца:

 library (dplyr)
library (tidyr)

#replace missing values in each numeric column with median value of column
new_df <-df %>% mutate(across(where(is. numeric ),~replace_na(.,median(.,na. rm = TRUE )))) 

#view new data frame
new_df

   team points rebound assists
1 to 4 9 2.0
2 to 4 9 2.0
3 B 8 7 6.5
4 C 8 6 7.0
5 D 6 8 6.0
6 E 12 9 6.0
7 F 14 9 9.0
8 G 86 14 10.0
9:13 12 6.5
10 I 8 11 14.0

Обратите внимание, что пропущенные значения в каждом числовом столбце заменены медианным значением столбца.

Обратите внимание, что вы также можете заменить медиану в формуле средним значением , чтобы заменить пропущенные значения средним значением каждого столбца.

Примечание . В этом примере нам также пришлось загрузить пакет Tidyr , поскольку функция drop_na() происходит из этого пакета.

Пример 3. Удаление повторяющихся строк

 library (dplyr)

#remove duplicate rows
new_df <- df %>% distinct(. keep_all = TRUE )

#view new data frame
new_df

  team points rebound assists
1 to 4 9 2
2 B NA 7 NA
3 C 8 6 7
4 D 6 8 6
5 E 12 NA 6
6 F 14 9 9
7 G 86 14 10
8:13:12 NA
9 I 8 11 14

Обратите внимание, что вторая строка была удалена из фрейма данных, поскольку каждое из значений во второй строке было дубликатом значений в первой строке.

Примечание . Полную документацию по функции dplyrdependent() можно найти здесь .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как группировать и суммировать данные в R
Как создать сводные таблицы в R
Как удалить строки с пропущенными значениями в R

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше