R で continue からカテゴリカル変数を作成する方法
R のCut()関数を使用して、連続変数からカテゴリ変数を作成できます。
この関数は次の基本構文を使用します。
df$cat_variable <- cut(df$continuous_variable, breaks=c(5, 10, 15, 20, 25), labels=c(' A ', ' B ', ' C ', ' D '))
Breaks は連続変数を除算する値を指定し、 labels は新しいカテゴリ変数の値に与えるラベルを指定することに注意してください。
次の例は、この構文を実際に使用する方法を示しています。
例: R の連続体からカテゴリカル変数を作成する
R に次のデータ フレームがあるとします。
#create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
points=c(78, 82, 86, 94, 99, 104, 109, 110))
#view data frame
df
team points
1 To 78
2 B 82
3 C 86
4 D 94
5 E 99
6 F 104
7 G 109
8:11 a.m.
現在、ポイントは連続変数です。
Cut()関数を使用して、それをカテゴリ変数に切り取ることができます。
#add new column that cuts 'points' into categories
df$cat <- cut(df$points,
breaks=c(70, 80, 90, 100, 110),
labels=c('Bad', 'OK', 'Good', 'Great'))
#view updated data frame
df
team points cat
1 To 78 Bad
2 B 82 OK
3 C 86 OK
4 D 94 Good
5 E 99 Good
6 F 104 Great
7 G 109 Great
8:110 Great
データ フレーム内の各チームを、ポイントに基づいて悪い、OK、良い、または優れたとしてランク付けするcatという新しいカテゴリ変数を作成しました。
class()関数を使用して、この新しい変数のクラスを確認できます。
#check class of 'cat' column
class(df$cat)
[1] “factor”
変数cat が要因であることがわかります。
table()関数を使用して、 cat変数内の各カテゴリの出現数をカウントすることもできます。
#count occurrences of each category in 'cat' variable
table(df$cat)
Bad OK Good Great
1 2 2 3
Cut()関数にラベル引数を指定しない場合、R は単純に間隔値の範囲をラベルとして使用することに注意してください。
#add new column that cuts 'points' into categories
df$cat <- cut(df$points, breaks=c(70, 80, 90, 100, 110))
#view updated data frame
df
team points cat
1 A 78 (70.80]
2 B 82 (80.90]
3 C 86 (80.90]
4 D 94 (90,100]
5 E 99 (90,100]
6 F 104 (100,110]
7 G 109 (100,110]
8:110 (100,110]
場合によっては、カスタム ラベルを使用するよりもこの方法を好む場合があります。
追加リソース
次のチュートリアルでは、R で他の一般的な操作を実行する方法について説明します。
R でカテゴリカル変数を数値に変換する方法
R でカテゴリカル変数を作成する方法
R でカテゴリカル データをプロットする方法