회귀 또는 분류: 차이점은 무엇입니까?


기계 학습 알고리즘은 지도 학습 알고리즘과 비지도 학습 알고리즘이라는 두 가지 유형으로 나눌 수 있습니다.

회귀 또는 분류 기계 학습 알고리즘

지도 학습 알고리즘은 두 가지 유형으로 분류될 수 있습니다.

1. 회귀: 반응 변수는 연속형입니다.

예를 들어 응답 변수는 다음과 같을 수 있습니다.

  • 무게
  • 가격
  • 시간
  • 총 단위

각각의 경우 회귀 모델은 연속 수량을 예측하려고 합니다.

회귀 예시:

100개의 서로 다른 주택에 대한 세 가지 변수(제곱피트, 욕실 수, 판매 가격)가 포함된 데이터 세트가 있다고 가정해 보겠습니다.

면적과 욕실 수를 설명 변수로 사용하고 판매 가격을 응답 변수로 사용하는 회귀 모델을 적합할 수 있습니다.

그런 다음 이 모델을 사용하여 주택의 면적과 욕실 수를 기반으로 주택 판매 가격을 예측할 수 있습니다.

반응변수(판매가격)가 연속형이기 때문에 이는 회귀모형의 한 예입니다.

회귀 모델의 정확도를 측정하는 가장 일반적인 방법은 예측 값이 모델에서 관찰된 값과 평균적으로 얼마나 떨어져 있는지 알려주는 지표인 RMSE(평균 제곱근 오차)를 계산하는 것입니다. 다음과 같이 계산됩니다.

RMSE = √ Σ(P i – O i ) 2 / n

금:

  • Σ는 ‘합’을 의미하는 화려한 기호입니다.
  • Pi는 i 번째 관측치에 대한 예측값입니다.
  • O ii번째 관측치에 대한 관측값입니다.
  • n은 표본 크기입니다.

RMSE가 작을수록 회귀 모델이 데이터를 더 잘 적합할 수 있습니다.

2. 분류: 반응 변수는 범주형입니다.

예를 들어 응답 변수는 다음 값을 사용할 수 있습니다.

  • 남성 또는 여성
  • 성공 또는 실패
  • 낮음, 중간 또는 높음

각각의 경우 분류 모델은 클래스 레이블을 예측하려고 합니다.

분류 예:

100명의 대학 농구 선수에 대한 세 가지 변수(게임당 점수, 디비전 레벨, NBA 드래프트 여부)가 포함된 데이터 세트가 있다고 가정해 보겠습니다.

게임당 평균 점수와 디비전 레벨당 평균 점수를 설명 변수로 사용하고 “초안”을 응답 변수로 사용하는 분류 모델을 적용할 수 있습니다.

그런 다음 이 모델을 사용하여 게임 평균 점수와 디비전 레벨을 기반으로 특정 선수가 NBA에 드래프트될지 여부를 예측할 수 있습니다.

응답 변수(“작성된”)가 범주형이므로 이는 분류 모델의 예입니다. 즉, “작성됨” 또는 “미작성”이라는 두 가지 범주의 값만 가져올 수 있습니다.

분류 모델의 정확도를 측정하는 가장 일반적인 방법은 단순히 모델이 수행한 올바른 분류의 백분율을 계산하는 것입니다.

정확도 = 수정 분류 / 총 분류 시도 횟수 * 100%

예를 들어, 모델이 선수가 NBA에 드래프트될 것인지 여부를 100번 중 88번 정확하게 식별하는 경우 모델의 정확도는 다음과 같습니다.

정확도 = (88/100) * 100% = 88%

정확도가 높을수록 분류 모델이 결과를 더 잘 예측할 수 있습니다.

회귀와 분류의 유사점

회귀 및 분류 알고리즘은 다음과 같은 점에서 유사합니다.

  • 둘 다 지도 학습 알고리즘입니다. 즉, 둘 다 응답 변수를 포함합니다.
  • 둘 다 하나 이상의 설명 변수를 사용하여 반응을 예측하는 모델을 만듭니다.
  • 둘 다 설명 변수 값의 변화가 응답 변수 값에 어떤 영향을 미치는지 이해하는 데 사용할 수 있습니다.

회귀와 분류의 차이점

회귀 및 분류 알고리즘은 다음과 같은 점에서 다릅니다.

  • 회귀 알고리즘은 연속 수량을 예측하려고 하며 분류 알고리즘은 클래스 레이블을 예측하려고 합니다.
  • 회귀 및 분류 모델의 정확도를 측정하는 방법은 다릅니다.

회귀를 분류로 변환

회귀 문제는 단순히 반응 변수를 구획으로 구분함으로써 분류 문제로 변환될 수 있다는 점에 유의해야 합니다.

예를 들어 면적, 욕실 수, 판매 가격이라는 세 가지 변수가 포함된 데이터 세트가 있다고 가정해 보겠습니다.

판매 가격을 예측하기 위해 면적과 욕실 수를 사용하여 회귀 모델을 구축할 수 있습니다.

그러나 판매 가격을 세 가지 클래스로 구분할 수 있습니다.

  • $80,000 – $160,000: “낮은 판매 가격”
  • $161,000 – $240,000: “평균 판매 가격”
  • $241,000 – $320,000: “높은 판매 가격”

그런 다음 평방 피트와 욕실 수를 설명 변수로 사용하여 특정 주택의 판매 가격이 어느 등급(낮음, 중간 또는 높음)에 속하는지 예측할 수 있습니다.

각 집을 하나의 클래스에 배치하려고 하기 때문에 이것은 분류 모델의 예가 될 것입니다.

요약

다음 표에는 회귀 알고리즘과 분류 알고리즘 간의 유사점과 차이점이 요약되어 있습니다.

회귀와 분류의 차이점

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다