Hoe de droplevels-functie in r te gebruiken (met voorbeelden)


De droplevels() functie in R kan worden gebruikt om ongebruikte factorniveaus te verwijderen.

Deze functie is vooral handig als we factorniveaus willen verwijderen die niet langer worden gebruikt vanwege een subset van een vector of dataframe.

Deze functie gebruikt de volgende syntaxis:

dalingsniveaus (x)

waarbij x een object is waarvan ongebruikte factorniveaus moeten worden verwijderd.

In deze zelfstudie vindt u enkele voorbeelden van hoe u deze functie in de praktijk kunt gebruiken.

Voorbeeld 1: Verwijder ongebruikte factorniveaus in een vector

Stel dat we een gegevensvector met vijf factorniveaus maken. Stel vervolgens dat we een nieuwe gegevensvector definiëren met slechts drie van de oorspronkelijke vijf factorniveaus.

 #define data with 5 factor levels
data <- factor (c(1, 2, 3, 4, 5))

#define new data as original data minus 4th and 5th factor levels
new_data <- data[-c(4, 5)]

#view new data
new_data

[1] 1 2 3
Levels: 1 2 3 4 5

Hoewel de nieuwe gegevens slechts drie factoren bevatten, kunnen we zien dat deze nog steeds de oorspronkelijke vijf factorniveaus bevatten.

Om deze ongebruikte factorniveaus te verwijderen, kunnen we de functie droplevels() gebruiken:

 #drop unused factor levels
new_data < -droplevels (new_data)

#view data
new_data

[1] 1 2 3
Levels: 1 2 3

De nieuwe gegevens bevatten nu slechts drie niveaus van factoren.

Voorbeeld 2: Ongebruikte factorniveaus in een dataframe verwijderen

Stel dat we een dataframe maken waarin een van de variabelen een factor met vijf niveaus is. Stel vervolgens dat we een nieuw dataframe definiëren dat twee van deze factorniveaus verwijdert:

 #create data frame
df <- data. frame (region= factor (c('A', 'B', 'C', 'D', 'E')),
                 sales = c(13, 16, 22, 27, 34))

#view data frame
df

  regional sales
1 to 13
2 B 16
3 C 22
4 D 27
5 E 34

#define new data frame
new_df <- subset (df, sales < 25)

#view new data frame
new_df

  regional sales
1 to 13
2 B 16
3 C 22

#check levels of region variable
levels (new_df$region)

[1] “A” “B” “C” “D” “E”

Hoewel de nieuwe database slechts drie factoren in de regiokolom bevat, bevat deze nog steeds de oorspronkelijke vijf factorniveaus. Dit zou problemen veroorzaken als we zouden proberen plots te maken met behulp van deze gegevens.

Om ongebruikte factorniveaus uit de regiovariabele te verwijderen, kunnen we de functie droplevels() gebruiken:

 #drop unused factor levels
new_df$region <- droplevels (new_df$region)

#check levels of region variable
levels (new_df$region)

[1] “A” “B” “C”

Nu bevat de regiovariabele slechts drie niveaus van factoren.

Op deze pagina vindt u meer R-tutorials.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert