R의 계속에서 범주형 변수를 만드는 방법
R의 cut() 함수를 사용하여 연속형 변수에서 범주형 변수를 만들 수 있습니다.
이 함수는 다음 기본 구문을 사용합니다.
df$cat_variable <- cut(df$continuous_variable,
breaks=c(5, 10, 15, 20, 25),
labels=c(' A ', ' B ', ' C ', ' D '))
break는 연속형 변수를 나눌 값을 지정하고 labels는 새 범주형 변수의 값에 부여할 레이블을 지정합니다.
다음 예에서는 실제로 이 구문을 사용하는 방법을 보여줍니다.
예: R의 연속체에서 범주형 변수 생성
R에 다음과 같은 데이터 프레임이 있다고 가정합니다.
#create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
points=c(78, 82, 86, 94, 99, 104, 109, 110))
#view data frame
df
team points
1 To 78
2 B 82
3 C 86
4 D 94
5 E 99
6 F 104
7 G 109
8:11 a.m.
현재 포인트는 연속형 변수입니다.
cut() 함수를 사용하여 이를 범주형 변수로 잘라낼 수 있습니다.
#add new column that cuts 'points' into categories
df$cat <- cut(df$points,
breaks=c(70, 80, 90, 100, 110),
labels=c('Bad', 'OK', 'Good', 'Great'))
#view updated data frame
df
team points cat
1 To 78 Bad
2 B 82 OK
3 C 86 OK
4 D 94 Good
5 E 99 Good
6 F 104 Great
7 G 109 Great
8:110 Great
우리는 데이터 프레임에서 각 팀의 점수를 기준으로 Bad, OK, Good 또는 Excellent로 순위를 매기는 cat 이라는 새로운 범주형 변수를 만들었습니다.
class() 함수를 사용하여 이 새 변수의 클래스를 확인할 수 있습니다.
#check class of 'cat' column
class(df$cat)
[1] “factor”
변수 cat 이 요인이라는 것을 알 수 있습니다.
또한 table() 함수를 사용하여 cat 변수에서 각 범주의 발생 횟수를 계산할 수 있습니다.
#count occurrences of each category in 'cat' variable
table(df$cat)
Bad OK Good Great
1 2 2 3
cut() 함수에 레이블 인수를 제공하지 않으면 R은 단순히 간격 값의 범위를 레이블로 사용합니다.
#add new column that cuts 'points' into categories
df$cat <- cut(df$points, breaks=c(70, 80, 90, 100, 110))
#view updated data frame
df
team points cat
1 A 78 (70.80]
2 B 82 (80.90]
3 C 86 (80.90]
4 D 94 (90,100]
5 E 99 (90,100]
6 F 104 (100,110]
7 G 109 (100,110]
8:110 (100,110]
어떤 경우에는 사용자 정의 레이블을 사용하는 것보다 이 방법을 더 선호할 수도 있습니다.
추가 리소스
다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
R에서 범주형 변수를 숫자로 변환하는 방법
R에서 범주형 변수를 만드는 방법
R에서 범주형 데이터를 그리는 방법