Hoe mutate te gebruiken om nieuwe variabelen te maken in r
In deze tutorial wordt uitgelegd hoe u de functie mute() in R gebruikt om nieuwe variabelen aan een dataframe toe te voegen.
Nieuwe variabelen toevoegen in R
De volgende dplyr- bibliotheekfuncties kunnen worden gebruikt om nieuwe variabelen aan een dataframe toe te voegen:
mute() – voegt nieuwe variabelen toe aan een dataframe terwijl bestaande variabelen behouden blijven
transmute() – voegt nieuwe variabelen toe aan een dataframe en verwijdert bestaande variabelen
mute_all() – wijzigt alle variabelen in een dataframe in één keer
mute_at() – wijzigt specifieke variabelen op naam
mute_if() – wijzigt alle variabelen die aan een bepaalde voorwaarde voldoen
muteren()
De functie mute() voegt nieuwe variabelen toe aan een dataframe terwijl alle bestaande variabelen behouden blijven. De basissyntaxis van mute() is:
data <- mutate (new_variable = existing_variable/3)
- data: het nieuwe datablok waaraan de nieuwe variabelen moeten worden toegewezen
- nieuwe_variabele: de naam van de nieuwe variabele
- bestaande_variabele: de bestaande variabele in het dataframe waarop u een bewerking wilt uitvoeren om de nieuwe variabele te maken
De volgende code laat bijvoorbeeld zien hoe u een nieuwe root_sepal_width variabele toevoegt aan de ingebedde irisgegevensset :
#define data frame as the first six lines of the iris dataset data <- head(iris) #view data data # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #1 5.1 3.5 1.4 0.2 setosa #2 4.9 3.0 1.4 0.2 setosa #3 4.7 3.2 1.3 0.2 setosa #4 4.6 3.1 1.5 0.2 setosa #5 5.0 3.6 1.4 0.2 setosa #6 5.4 3.9 1.7 0.4 setosa #load dplyr library library(dplyr) #define new column root_sepal_width as the square root of the Sepal.Width variable data %>% mutate (root_sepal_width = sqrt(Sepal.Width)) # Sepal.Length Sepal.Width Petal.Length Petal.Width Species root_sepal_width #1 5.1 3.5 1.4 0.2 setosa 1.870829 #2 4.9 3.0 1.4 0.2 setosa 1.732051 #3 4.7 3.2 1.3 0.2 setosa 1.788854 #4 4.6 3.1 1.5 0.2 setosa 1.760682 #5 5.0 3.6 1.4 0.2 setosa 1.897367 #6 5.4 3.9 1.7 0.4 setosa 1.974842
transmuteren()
De functie transmute() voegt nieuwe variabelen toe aan een dataframe en verwijdert bestaande variabelen. De volgende code laat zien hoe u twee nieuwe variabelen aan een gegevensset kunt toevoegen en alle bestaande variabelen kunt verwijderen:
#define data frame as the first six lines of the iris dataset data <- head(iris) #viewdata data # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #1 5.1 3.5 1.4 0.2 setosa #2 4.9 3.0 1.4 0.2 setosa #3 4.7 3.2 1.3 0.2 setosa #4 4.6 3.1 1.5 0.2 setosa #5 5.0 3.6 1.4 0.2 setosa #6 5.4 3.9 1.7 0.4 setosa #define two new variables and remove all existing variables data %>% transmute (root_sepal_width = sqrt(Sepal.Width), root_petal_width = sqrt(Petal.Width)) # root_sepal_width root_petal_width #1 1.870829 0.4472136 #2 1.732051 0.4472136 #3 1.788854 0.4472136 #4 1.760682 0.4472136 #5 1.897367 0.4472136 #6 1.974842 0.6324555
mute_all()
De functie mute_all() wijzigt alle variabelen in een dataframe in één keer, waardoor u een specifieke functie op alle variabelen kunt uitvoeren met behulp van de functie funs() . De volgende code laat zien hoe u alle kolommen in een dataframe door 10 deelt met behulp van mute_all() :
#define new data frame as the first six rows of iris without the Species variable data2 <- head(iris) %>% select(-Species) #view the new data frame data2 # Sepal.Length Sepal.Width Petal.Length Petal.Width #1 5.1 3.5 1.4 0.2 #2 4.9 3.0 1.4 0.2 #3 4.7 3.2 1.3 0.2 #4 4.6 3.1 1.5 0.2 #5 5.0 3.6 1.4 0.2 #6 5.4 3.9 1.7 0.4 #divide all variables in the data frame by 10 data2 %>% mutate_all (funs(./10)) # Sepal.Length Sepal.Width Petal.Length Petal.Width #1 0.51 0.35 0.14 0.02 #2 0.49 0.30 0.14 0.02 #3 0.47 0.32 0.13 0.02 #4 0.46 0.31 0.15 0.02 #5 0.50 0.36 0.14 0.02 #6 0.54 0.39 0.17 0.04
Houd er rekening mee dat extra variabelen aan het dataframe kunnen worden toegevoegd door een nieuwe naam op te geven die aan de oude variabelenaam moet worden toegevoegd:
data2 %>% mutate_all (funs(mod = ./10))
# Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length_mod
#1 5.1 3.5 1.4 0.2 0.51
#2 4.9 3.0 1.4 0.2 0.49
#3 4.7 3.2 1.3 0.2 0.47
#4 4.6 3.1 1.5 0.2 0.46
#5 5.0 3.6 1.4 0.2 0.50
#6 5.4 3.9 1.7 0.4 0.54
# Sepal.Width_mod Petal.Length_mod Petal.Width_mod
#1 0.35 0.14 0.02
#2 0.30 0.14 0.02
#3 0.32 0.13 0.02
#4 0.31 0.15 0.02
#5 0.36 0.14 0.02
#6 0.39 0.17 0.04
mute_at()
De functie mute_at() wijzigt specifieke variabelen op naam. De volgende code laat zien hoe je twee specifieke variabelen door 10 deelt met behulp van mute_at() :
data2 %>% mutate_at (c("Sepal.Length", "Sepal.Width"), funs(mod = ./10))
# Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length_mod
#1 5.1 3.5 1.4 0.2 0.51
#2 4.9 3.0 1.4 0.2 0.49
#3 4.7 3.2 1.3 0.2 0.47
#4 4.6 3.1 1.5 0.2 0.46
#5 5.0 3.6 1.4 0.2 0.50
#6 5.4 3.9 1.7 0.4 0.54
# Sepal.Width_mod
#1 0.35
#2 0.30
#3 0.32
#4 0.31
#5 0.36
#6 0.39
mute_if()
De functie mute_if() wijzigt alle variabelen die aan een bepaalde voorwaarde voldoen. De volgende code illustreert hoe u de functie mute_if() gebruikt om elke variabele van type factor naar type karakter te converteren:
#find variable type of each variable in a data frame data <- head(iris) sapply(data, class) #Sepal.Length Sepal.Width Petal.Length Petal.Width Species # "numeric" "numeric" "numeric" "numeric" "factor" #convert any variable of type factor to type character new_data <- data %>% mutate_if(is.factor, as.character) sapply(new_data, class) #Sepal.Length Sepal.Width Petal.Length Petal.Width Species # "numeric" "numeric" "numeric" "numeric" "character"
De volgende code laat zien hoe u de functie mute_if() gebruikt om alle numerieke variabelen af te ronden op één decimaal:
#define data as first six rows of iris dataset data <- head(iris) #view data data # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #1 5.1 3.5 1.4 0.2 setosa #2 4.9 3.0 1.4 0.2 setosa #3 4.7 3.2 1.3 0.2 setosa #4 4.6 3.1 1.5 0.2 setosa #5 5.0 3.6 1.4 0.2 setosa #6 5.4 3.9 1.7 0.4 setosa #round any variables of type numeric to one decimal place data %>% mutate_if(is.numeric, round, digits = 0) # Sepal.Length Sepal.Width Petal.Length Petal.Width Species #1 5 4 1 0 setosa #2 5 3 1 0 setosa #3 5 3 1 0 setosa #4 5 3 2 0 setosa #5 5 4 1 0 setosa #6 5 4 2 0 setosa
Verder lezen:
Een gids voor apply(), lapply(), sapply() en tapply() in R
Hoe lijnen in R te rangschikken
Rijen filteren in R