Как использовать функцию droplevels в r (с примерами)


Функцию droplevels() в R можно использовать для удаления неиспользуемых уровней факторов.

Эта функция особенно полезна, если мы хотим удалить уровни факторов, которые больше не используются из-за подмножества вектора или фрейма данных.

Эта функция использует следующий синтаксис:

уровни падения (x)

где x — объект, из которого следует удалить неиспользуемые уровни факторов.

В этом руководстве представлены несколько примеров того, как использовать эту функцию на практике.

Пример 1. Удаление неиспользуемых уровней факторов в векторе

Предположим, мы создаем вектор данных с пятью уровнями факторов. Далее предположим, что мы определяем новый вектор данных только с тремя из исходных пяти уровней факторов.

 #define data with 5 factor levels
data <- factor (c(1, 2, 3, 4, 5))

#define new data as original data minus 4th and 5th factor levels
new_data <- data[-c(4, 5)]

#view new data
new_data

[1] 1 2 3
Levels: 1 2 3 4 5

Хотя новые данные содержат только три фактора, мы видим, что они все еще содержат исходные пять уровней факторов.

Чтобы удалить эти неиспользуемые уровни факторов, мы можем использовать функцию droplevels() :

 #drop unused factor levels
new_data < -droplevels (new_data)

#view data
new_data

[1] 1 2 3
Levels: 1 2 3

Новые данные теперь содержат только три уровня факторов.

Пример 2. Удаление неиспользуемых уровней коэффициентов во фрейме данных.

Предположим, мы создаем фрейм данных, в котором одна из переменных является пятиуровневым фактором. Далее предположим, что мы определяем новый фрейм данных, который удаляет два из этих уровней факторов:

 #create data frame
df <- data. frame (region= factor (c('A', 'B', 'C', 'D', 'E')),
                 sales = c(13, 16, 22, 27, 34))

#view data frame
df

  regional sales
1 to 13
2 B 16
3 C 22
4 D 27
5 E 34

#define new data frame
new_df <- subset (df, sales < 25)

#view new data frame
new_df

  regional sales
1 to 13
2 B 16
3 C 22

#check levels of region variable
levels (new_df$region)

[1] “A” “B” “C” “D” “E”

Хотя новая база данных содержит только три фактора в столбце региона , она по-прежнему содержит исходные пять уровней факторов. Это создало бы проблемы, если бы мы попытались построить графики, используя эти данные.

Чтобы удалить неиспользуемые уровни факторов из переменной региона , мы можем использовать функцию droplevels() :

 #drop unused factor levels
new_df$region <- droplevels (new_df$region)

#check levels of region variable
levels (new_df$region)

[1] “A” “B” “C”

Теперь переменная региона содержит только три уровня факторов.

Дополнительные руководства по R вы можете найти на этой странице .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *