Dplyr: como alterar uma variável se a coluna contém uma string

By Dr. benjamim anderson Julho 16, 2023 Guia 0 Comments

Você pode usar a seguinte sintaxe básica em dplyr para alterar uma variável se uma coluna contiver uma string específica:

 library (dplyr)

df %>% mutate_at(vars(contains(' starter ')), ~ (scale(.) %>% as. vector ))

Esta sintaxe específica aplica a função scale() a cada variável no quadro de dados que contém a string “starter” no nome da coluna.

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo: altere a variável se a coluna contiver uma string

Suponha que temos o seguinte quadro de dados em R:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F'),
                 starter_points=c(22, 26, 25, 13, 15, 22),
                 starter_assists=c(4, 5, 10, 14, 12, 10),
                 bench_points=c(7, 7, 9, 14, 13, 10),
                 bench_assists=c(2, 5, 5, 4, 9, 14))

#view data frame
df

  team starter_points starter_assists bench_points bench_assists
1 to 22 4 7 2
2 B 26 5 7 5
3 C 25 10 9 5
4 D 13 14 14 4
5 E 15 12 13 9
6 F 22 10 10 14

Podemos usar a seguinte sintaxe para aplicar a função scale() a cada variável no quadro de dados que contém a string “starter” no nome da coluna.

 library (dplyr)

#apply scale() function to each variable that contains 'starter' in the name
df %>% mutate_at(vars(contains(' starter ')), ~ (scale(.) %>% as. vector ))

  team starter_points starter_assists bench_points bench_assists
1 A 0.2819668 -1.3180158 7 2
2 B 1.0338784 -1.0629159 7 5
3 C 0.8459005 0.2125832 9 5
4 D -1.4098342 1.2329825 14 4
5 E -1.0338784 0.7227828 13 9
6 F 0.2819668 0.2125832 10 14

Usando esta sintaxe, fomos capazes de aplicar a função scale() para dimensionar cada coluna contendo “inicial” de forma que seus valores agora tenham média 0 e desvio padrão 1.

Observe que as seguintes colunas foram modificadas:

pontos_iniciais
starter_assists

Todas as outras colunas permaneceram inalteradas.

Observe também que podemos aplicar qualquer função que desejarmos usando esta sintaxe.

No exemplo anterior, optamos por dimensionar cada coluna com a string “starter” no nome.

Porém, poderíamos fazer algo mais simples, como multiplicar os valores por dois para cada coluna com “starter” no nome:

 library (dplyr)

#multiply values by two for each variable that contains 'starter' in the name
df %>% mutate_at(vars(contains(' starter ')), ~ (. * 2 ))

  team starter_points starter_assists bench_points bench_assists
1 A 44 8 7 2
2 B 52 10 7 5
3 C 50 20 9 5
4 D 26 28 14 4
5 E 30 24 13 9
6 F 44 20 10 14

Observe que os valores das colunas starter_points e starter_assists foram multiplicados por dois, enquanto todas as outras colunas permaneceram inalteradas.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns no dplyr:

Como deletar linhas usando dplyr
Como selecionar colunas por índice usando dplyr
Como filtrar linhas contendo uma determinada string usando dplyr

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais

Exemplo: altere a variável se a coluna contiver uma string

Recursos adicionais

About Author

Dr. benjamim anderson

Add a Comment