A: 複数の区切り文字を使用して strsplit() を使用する方法
R のstrsplit()関数で次の基本構文を使用すると、複数の区切り文字に基づいて文字列を分割できます。
strsplit(my_string, ' [,& ]+ ')
この特定の例では、次の 3 つの区切り文字のいずれかに遭遇するたびに、 my_stringという文字列を分割します。
- カンマ ( , )
- アンパサンド ( & )
- 地域
括弧内の文字は検索する区切り文字を示し、 +記号は行内に複数の区切り文字が存在する可能性がある (たとえば、行内に複数のスペースがある可能性がある) ことを示していることに注意してください。
次の例は、この構文を実際に使用する方法を示しています。
例: R で複数の区切り文字を指定して strsplit() を使用する
R に次の文字列があるとします。
#create string
my_string <- 'this is a, string & with seven words'
strsplit()関数を使用して、スペースが出現するたびに文字列を分割すると、次の結果が生成されます。
#split string based on spaces
strsplit(my_string, ' ')
[[1]]
[1] "this" "is" "a," "string" "&" "with" "" ""
[9] “seven” “words”
strsplit()関数は、スペースが出現するたびに文字列を分割しますが、カンマ、アンパサンド、複数のスペースは処理できません。
これらの各区切り文字に基づいて文字列を分割するには、次の構文を使用できます。
#split string based on multiple delimiters
strsplit(my_string, ' [,& ]+ ')
[[1]]
[1] "this" "is" "a" "string" "with" "seven" "words"
この関数は、3 つの異なる区切り文字に基づいて文字列を分割することができ、文字列内の関心のある単語のみを正確に返します。
この例では、 strsplit()関数に 3 つの括弧で囲まれた区切り文字を含めていますが、必要なだけ区切り文字を指定できることに注意してください。
追加リソース
次のチュートリアルでは、dplyr を使用して他の一般的な操作を実行する方法について説明します。
R で strsplit() 関数を使用して文字列要素を分割する方法
文字列を分割して R の最初の要素を取得する方法
Rで文字列内の単語を数える方法