Como usar a função droplevels em r (com exemplos)


A função droplevels() em R pode ser usada para remover níveis de fatores não utilizados.

Esta função é particularmente útil se quisermos remover níveis de fator que não são mais usados devido ao subconjunto de um vetor ou quadro de dados.

Esta função usa a seguinte sintaxe:

níveis de queda (x)

onde x é um objeto do qual remover níveis de fator não utilizados.

Este tutorial fornece alguns exemplos de como usar esse recurso na prática.

Exemplo 1: Remover níveis de fator não utilizados em um vetor

Suponha que criemos um vetor de dados com cinco níveis de fator. A seguir, suponha que definimos um novo vetor de dados com apenas três dos cinco níveis de fator originais.

 #define data with 5 factor levels
data <- factor (c(1, 2, 3, 4, 5))

#define new data as original data minus 4th and 5th factor levels
new_data <- data[-c(4, 5)]

#view new data
new_data

[1] 1 2 3
Levels: 1 2 3 4 5

Embora os novos dados contenham apenas três fatores, podemos ver que ainda contêm os cinco níveis de fatores originais.

Para remover esses níveis de fator não utilizados, podemos usar a função droplevels() :

 #drop unused factor levels
new_data < -droplevels (new_data)

#view data
new_data

[1] 1 2 3
Levels: 1 2 3

Os novos dados contêm agora apenas três níveis de fatores.

Exemplo 2: Remover níveis de fator não utilizados em um quadro de dados

Suponha que criamos um quadro de dados no qual uma das variáveis é um fator de cinco níveis. A seguir, suponha que definimos um novo quadro de dados que remove dois destes níveis de fator:

 #create data frame
df <- data. frame (region= factor (c('A', 'B', 'C', 'D', 'E')),
                 sales = c(13, 16, 22, 27, 34))

#view data frame
df

  regional sales
1 to 13
2 B 16
3 C 22
4 D 27
5 E 34

#define new data frame
new_df <- subset (df, sales < 25)

#view new data frame
new_df

  regional sales
1 to 13
2 B 16
3 C 22

#check levels of region variable
levels (new_df$region)

[1] “A” “B” “C” “D” “E”

Embora o novo banco de dados contenha apenas três fatores na coluna região , ele ainda contém os cinco níveis de fatores originais. Isso criaria problemas se tentássemos criar gráficos usando esses dados.

Para remover níveis de fator não utilizados da variável de região , podemos usar a função droplevels() :

 #drop unused factor levels
new_df$region <- droplevels (new_df$region)

#check levels of region variable
levels (new_df$region)

[1] “A” “B” “C”

Agora, a variável região contém apenas três níveis de fatores.

Você pode encontrar mais tutoriais de R nesta página .

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *