Hoe de droplevels-functie in r te gebruiken (met voorbeelden)
De droplevels() functie in R kan worden gebruikt om ongebruikte factorniveaus te verwijderen.
Deze functie is vooral handig als we factorniveaus willen verwijderen die niet langer worden gebruikt vanwege een subset van een vector of dataframe.
Deze functie gebruikt de volgende syntaxis:
dalingsniveaus (x)
waarbij x een object is waarvan ongebruikte factorniveaus moeten worden verwijderd.
In deze zelfstudie vindt u enkele voorbeelden van hoe u deze functie in de praktijk kunt gebruiken.
Voorbeeld 1: Verwijder ongebruikte factorniveaus in een vector
Stel dat we een gegevensvector met vijf factorniveaus maken. Stel vervolgens dat we een nieuwe gegevensvector definiëren met slechts drie van de oorspronkelijke vijf factorniveaus.
#define data with 5 factor levels data <- factor (c(1, 2, 3, 4, 5)) #define new data as original data minus 4th and 5th factor levels new_data <- data[-c(4, 5)] #view new data new_data [1] 1 2 3 Levels: 1 2 3 4 5
Hoewel de nieuwe gegevens slechts drie factoren bevatten, kunnen we zien dat deze nog steeds de oorspronkelijke vijf factorniveaus bevatten.
Om deze ongebruikte factorniveaus te verwijderen, kunnen we de functie droplevels() gebruiken:
#drop unused factor levels new_data < -droplevels (new_data) #view data new_data [1] 1 2 3 Levels: 1 2 3
De nieuwe gegevens bevatten nu slechts drie niveaus van factoren.
Voorbeeld 2: Ongebruikte factorniveaus in een dataframe verwijderen
Stel dat we een dataframe maken waarin een van de variabelen een factor met vijf niveaus is. Stel vervolgens dat we een nieuw dataframe definiëren dat twee van deze factorniveaus verwijdert:
#create data frame df <- data. frame (region= factor (c('A', 'B', 'C', 'D', 'E')), sales = c(13, 16, 22, 27, 34)) #view data frame df regional sales 1 to 13 2 B 16 3 C 22 4 D 27 5 E 34 #define new data frame new_df <- subset (df, sales < 25) #view new data frame new_df regional sales 1 to 13 2 B 16 3 C 22 #check levels of region variable levels (new_df$region) [1] “A” “B” “C” “D” “E”
Hoewel de nieuwe database slechts drie factoren in de regiokolom bevat, bevat deze nog steeds de oorspronkelijke vijf factorniveaus. Dit zou problemen veroorzaken als we zouden proberen plots te maken met behulp van deze gegevens.
Om ongebruikte factorniveaus uit de regiovariabele te verwijderen, kunnen we de functie droplevels() gebruiken:
#drop unused factor levels new_df$region <- droplevels (new_df$region) #check levels of region variable levels (new_df$region) [1] “A” “B” “C”
Nu bevat de regiovariabele slechts drie niveaus van factoren.
Op deze pagina vindt u meer R-tutorials.