회귀 또는 분류: 차이점은 무엇입니까?
기계 학습 알고리즘은 지도 학습 알고리즘과 비지도 학습 알고리즘이라는 두 가지 유형으로 나눌 수 있습니다.
지도 학습 알고리즘은 두 가지 유형으로 분류될 수 있습니다.
1. 회귀: 반응 변수는 연속형입니다.
예를 들어 응답 변수는 다음과 같을 수 있습니다.
- 무게
- 키
- 가격
- 시간
- 총 단위
각각의 경우 회귀 모델은 연속 수량을 예측하려고 합니다.
회귀 예시:
100개의 서로 다른 주택에 대한 세 가지 변수(제곱피트, 욕실 수, 판매 가격)가 포함된 데이터 세트가 있다고 가정해 보겠습니다.
면적과 욕실 수를 설명 변수로 사용하고 판매 가격을 응답 변수로 사용하는 회귀 모델을 적합할 수 있습니다.
그런 다음 이 모델을 사용하여 주택의 면적과 욕실 수를 기반으로 주택 판매 가격을 예측할 수 있습니다.
반응변수(판매가격)가 연속형이기 때문에 이는 회귀모형의 한 예입니다.
회귀 모델의 정확도를 측정하는 가장 일반적인 방법은 예측 값이 모델에서 관찰된 값과 평균적으로 얼마나 떨어져 있는지 알려주는 지표인 RMSE(평균 제곱근 오차)를 계산하는 것입니다. 다음과 같이 계산됩니다.
RMSE = √ Σ(P i – O i ) 2 / n
금:
- Σ는 ‘합’을 의미하는 화려한 기호입니다.
- Pi는 i 번째 관측치에 대한 예측값입니다.
- O i 는 i번째 관측치에 대한 관측값입니다.
- n은 표본 크기입니다.
RMSE가 작을수록 회귀 모델이 데이터를 더 잘 적합할 수 있습니다.
2. 분류: 반응 변수는 범주형입니다.
예를 들어 응답 변수는 다음 값을 사용할 수 있습니다.
- 남성 또는 여성
- 성공 또는 실패
- 낮음, 중간 또는 높음
각각의 경우 분류 모델은 클래스 레이블을 예측하려고 합니다.
분류 예:
100명의 대학 농구 선수에 대한 세 가지 변수(게임당 점수, 디비전 레벨, NBA 드래프트 여부)가 포함된 데이터 세트가 있다고 가정해 보겠습니다.
게임당 평균 점수와 디비전 레벨당 평균 점수를 설명 변수로 사용하고 “초안”을 응답 변수로 사용하는 분류 모델을 적용할 수 있습니다.
그런 다음 이 모델을 사용하여 게임 평균 점수와 디비전 레벨을 기반으로 특정 선수가 NBA에 드래프트될지 여부를 예측할 수 있습니다.
응답 변수(“작성된”)가 범주형이므로 이는 분류 모델의 예입니다. 즉, “작성됨” 또는 “미작성”이라는 두 가지 범주의 값만 가져올 수 있습니다.
분류 모델의 정확도를 측정하는 가장 일반적인 방법은 단순히 모델이 수행한 올바른 분류의 백분율을 계산하는 것입니다.
정확도 = 수정 분류 / 총 분류 시도 횟수 * 100%
예를 들어, 모델이 선수가 NBA에 드래프트될 것인지 여부를 100번 중 88번 정확하게 식별하는 경우 모델의 정확도는 다음과 같습니다.
정확도 = (88/100) * 100% = 88%
정확도가 높을수록 분류 모델이 결과를 더 잘 예측할 수 있습니다.
회귀와 분류의 유사점
회귀 및 분류 알고리즘은 다음과 같은 점에서 유사합니다.
- 둘 다 지도 학습 알고리즘입니다. 즉, 둘 다 응답 변수를 포함합니다.
- 둘 다 하나 이상의 설명 변수를 사용하여 반응을 예측하는 모델을 만듭니다.
- 둘 다 설명 변수 값의 변화가 응답 변수 값에 어떤 영향을 미치는지 이해하는 데 사용할 수 있습니다.
회귀와 분류의 차이점
회귀 및 분류 알고리즘은 다음과 같은 점에서 다릅니다.
- 회귀 알고리즘은 연속 수량을 예측하려고 하며 분류 알고리즘은 클래스 레이블을 예측하려고 합니다.
- 회귀 및 분류 모델의 정확도를 측정하는 방법은 다릅니다.
회귀를 분류로 변환
회귀 문제는 단순히 반응 변수를 구획으로 구분함으로써 분류 문제로 변환될 수 있다는 점에 유의해야 합니다.
예를 들어 면적, 욕실 수, 판매 가격이라는 세 가지 변수가 포함된 데이터 세트가 있다고 가정해 보겠습니다.
판매 가격을 예측하기 위해 면적과 욕실 수를 사용하여 회귀 모델을 구축할 수 있습니다.
그러나 판매 가격을 세 가지 클래스로 구분할 수 있습니다.
- $80,000 – $160,000: “낮은 판매 가격”
- $161,000 – $240,000: “평균 판매 가격”
- $241,000 – $320,000: “높은 판매 가격”
그런 다음 평방 피트와 욕실 수를 설명 변수로 사용하여 특정 주택의 판매 가격이 어느 등급(낮음, 중간 또는 높음)에 속하는지 예측할 수 있습니다.
각 집을 하나의 클래스에 배치하려고 하기 때문에 이것은 분류 모델의 예가 될 것입니다.
요약
다음 표에는 회귀 알고리즘과 분류 알고리즘 간의 유사점과 차이점이 요약되어 있습니다.