Jak wyodrębnić ciąg znaków po określonym znaku w r

Przez Benjamin Anderson 13 lipca, 2023 Przewodnik 0 komentarzy

Możesz użyć następujących metod, aby wyodrębnić ciąg znaków po określonym znaku w R:

Metoda 1: Wyodrębnij ciąg znaków po określonych znakach, używając Base R

 sub(' .*the ', '', my_string)

Metoda 2: Wyodrębnij ciąg znaków po określonych znakach za pomocą stringr

 library (stringr)

str_replace(my_string, ' (.*?)the(.*?) ', ' \\1 ')

Obydwa przykłady wyodrębniają ciąg znaków po wzorcu „the” w my_string .

Poniższe przykłady pokazują, jak w praktyce zastosować każdą metodę z następującą ramką danych:

 #create data frame
df <- data. frame (team=c('theMavs', 'theHeat', 'theNets', 'theRockets'),
                 dots=c(114, 135, 119, 140))

#view data frame
df

        team points
1 theMavs 114
2 theHeat 135
3 theNets 119
4 theRockets 140

Przykład 1: Wyodrębnij ciąg znaków po określonych znakach, używając Base R

Poniższy kod pokazuje, jak wyodrębnić ciąg znaków po „the” dla każdego wiersza w kolumnie zespołu ramki danych:

 #create new column that extracts string after "the" in team column
df$team_name <- sub(' .*the ', '', df$team)

#view updated data frame
df

        team points team_name
1 theMavs 114 Mavs
2 theHeat 135 Heat
3 theNets 119 Nets
4 theRockets 140 Rockets

Należy zauważyć, że nowa kolumna o nazwie nazwa_zespołu zawiera ciąg znaków po „the” dla każdego wiersza w kolumnie zespołu w ramce danych.

Powiązane : Wprowadzenie do sub() w R

Przykład 2: Wyodrębnij ciąg znaków po określonych znakach, używając pakietu stringr

Poniższy kod pokazuje, jak wyodrębnić ciąg znaków po „the” dla każdego wiersza w kolumnie zespołu ramki danych przy użyciu funkcji str_replace() z pakietu stringr w R:

 library (stringr)

#create new column that extracts string after "the" in team column
df$team_name <- str_replace(df$team, ' (.*?)the(.*?)', '\\1 ')

#view updated data frame
df

           team points team_name
1 Mavs pro team 114 Mavs
2 team Heat pro 135 Heat
3 Nets pro team 119 Nets

Należy zauważyć, że nowa kolumna o nazwie nazwa_zespołu zawiera ciąg znaków po „the” dla każdego wiersza w kolumnie zespołu w ramce danych.

Odpowiada to wynikom użycia funkcji sub() w bazie R.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:

Jak wybrać kolumny zawierające określony ciąg w R
Jak usunąć znaki z ciągu w R
Jak znaleźć lokalizację znaku w ciągu w R

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

Przykład 1: Wyodrębnij ciąg znaków po określonych znakach, używając Base R

Przykład 2: Wyodrębnij ciąg znaków po określonych znakach, używając pakietu stringr

Dodatkowe zasoby

o autorze

Dr Benjamin Anderson

Dodaj komentarz