R에서 불균형 데이터에 smote를 사용하는 방법(예제 포함)


기계 학습 분류 알고리즘 으로 작업할 때 데이터 세트의 클래스가 불균형해지는 경우가 많습니다.

예를 들어:

  • 대학 선수가 NBA에 드래프트되었는지 여부에 대한 정보가 포함된 데이터 세트에는 98%의 선수가 드래프트되지 않고 2%가 드래프트될 수 있습니다.
  • 환자의 암 여부에 대한 정보가 포함된 데이터 세트에는 암이 없는 환자의 99%가 포함될 수 있고 암이 있는 환자는 1%만 포함될 수 있습니다.
  • 은행 사기 정보가 포함된 데이터세트에는 합법적인 거래가 96%, 사기 거래가 4% 포함될 수 있습니다.

이러한 불균형 클래스로 인해 구축한 예측 모델이 소수 클래스에서 제대로 작동하지 않을 수 있습니다.

더 나쁜 것은 소수 계층이 우리가 가장 예측하고 싶은 계층인 경우가 많다는 것입니다.

이러한 불균형 문제를 해결하는 한 가지 방법은 종종 SMOTE 로 축약되는 합성 소수 오버샘플링 기술을 사용하는 것입니다.

이 기술에는 소수 클래스의 관측치를 오버샘플링하여 새 데이터 세트를 생성하는 작업이 포함되며, 이는 보다 균형 잡힌 클래스가 있는 데이터 세트를 생성합니다.

R에서 SMOTE를 사용하는 가장 쉬운 방법은 DMwR 패키지의 SMOTE() 함수를 사용하는 것입니다.

이 함수는 다음 기본 구문을 사용합니다.

 SMOTE(form, data, perc. over = 200 , perc. under = 200 , ...)

금:

  • form : 적용하려는 모델을 설명하는 공식
  • data : 데이터 프레임의 이름
  • perc.over : 소수 클래스의 추가 사례가 몇 개 생성되는지 결정하는 숫자
  • perc.under : 다수 클래스의 추가 사례가 생성되는 수를 결정하는 숫자

다음 예에서는 이 기능을 실제로 사용하는 방법을 보여줍니다.

예: R에서 SMOTE를 사용하는 방법

R에 100개의 관측값이 있는 다음 데이터 세트가 있다고 가정합니다. 여기서 90개에는 응답 변수에 대한 “예” 클래스가 있고 10개에는 “아니오” 클래스가 있습니다.

 #make this example reproducible
set. seed ( 0 )

#create data frame with one response variable and two predictor variables
df <- data. frame (y=rep(as. factor (c(' Yes ', ' No ')), times=c( 90 , 10 )),
                 x1=rnorm( 100 ),
                 x2=rnorm( 100 ))

#view first six rows of data frame
head(df)

    y x1 x2
1 Yes 1.2629543 0.7818592
2 Yes -0.3262334 -0.7767766
3 Yes 1.3297993 -0.6159899
4 Yes 1.2724293 0.0465803
5 Yes 0.4146414 -1.1303858
6 Yes -1.5399500 0.5767188
 
#view distribution of response variable
table(df$y)

 Drowned 
 10 90

이는 우리가 예측하는 응답 변수에 “예” 클래스의 관측치가 90개 있고 “아니오” 클래스의 관측치가 10개만 있기 때문에 불균형 데이터세트의 전형적인 예입니다.

보다 균형 잡힌 데이터 세트를 생성하려면 DMwR 패키지의 SMOTE() 함수를 사용할 수 있습니다.

 library ( DMwR)

#use SMOTE to create new dataset that is more balanced
new_df <- SMOTE(y ~ ., df, perc. over = 2000 , perc. under = 400 )

#view distribution of response variable in new dataset
table(new_df$y)

 Drowned 
210,800

결과 데이터 세트에는 클래스가 “아니요”인 210개의 관찰과 클래스가 “예”인 800개의 관찰이 포함되어 있습니다.

SMOTE 함수가 이 새로운 데이터 세트를 생성한 방법은 다음과 같습니다.

  • perc.over 인수는 기존 소수 관측치 수의 2000/100(또는 20)배를 데이터 세트에 추가하도록 지정했습니다. 원본 데이터세트에 10개의 관측치가 존재했기 때문에 20*10 = 200개의 추가 소수 관측치를 추가했습니다.
  • perc.under 인수는 다수 관측치 수를 기존 소수 관측치에 추가된 소수 관측치 수의 400/100(또는 4)배로 만들고 싶다고 지정했습니다. 200개의 소수 관측치가 추가되었으므로 다수 관측치의 수를 200 * 4 = 800개의 다수 관측치 와 동일하게 만들었습니다.

최종 결과는 여전히 더 많은 다수의 클래스를 포함하지만 원래 데이터세트보다 균형이 더 잘 잡힌 데이터세트입니다.

이제 선택한 분류 알고리즘을 이 새 데이터 세트에 적용할 수 있습니다. 그러면 이 새 데이터 세트의 소수 클래스에서 더 많은 관측값이 있으므로 소수 클래스에서 더 나은 성능을 발휘할 것입니다.

참고 : SMOTE 함수에서 perc.overperc.under 인수를 자유롭게 사용하여 필요에 맞는 데이터세트를 얻으세요.

추가 리소스

다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

R에서 요약 테이블을 만드는 방법
R에서 데이터를 정규화하는 방법
R에서 이상값을 제거하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다