회귀 또는 분류: 차이점은 무엇입니까?

에 의해 벤자민 앤더슨 7월 27, 2023 가이드 댓글 0개

기계 학습 알고리즘은 지도 학습 알고리즘과 비지도 학습 알고리즘이라는 두 가지 유형으로 나눌 수 있습니다.

회귀 또는 분류 기계 학습 알고리즘

지도 학습 알고리즘은 두 가지 유형으로 분류될 수 있습니다.

1. 회귀: 반응 변수는 연속형입니다.

예를 들어 응답 변수는 다음과 같을 수 있습니다.

무게
키
가격
시간
총 단위

각각의 경우 회귀 모델은 연속 수량을 예측하려고 합니다.

회귀 예시:

100개의 서로 다른 주택에 대한 세 가지 변수(제곱피트, 욕실 수, 판매 가격)가 포함된 데이터 세트가 있다고 가정해 보겠습니다.

면적과 욕실 수를 설명 변수로 사용하고 판매 가격을 응답 변수로 사용하는 회귀 모델을 적합할 수 있습니다.

그런 다음 이 모델을 사용하여 주택의 면적과 욕실 수를 기반으로 주택 판매 가격을 예측할 수 있습니다.

반응변수(판매가격)가 연속형이기 때문에 이는 회귀모형의 한 예입니다.

회귀 모델의 정확도를 측정하는 가장 일반적인 방법은 예측 값이 모델에서 관찰된 값과 평균적으로 얼마나 떨어져 있는지 알려주는 지표인 RMSE(평균 제곱근 오차)를 계산하는 것입니다. 다음과 같이 계산됩니다.

RMSE = √ Σ(P _i – O _i ) ² / n

금:

Σ는 ‘합’을 의미하는 화려한 기호입니다.
Pi는 _i ^번째 관측치에 대한 예측값입니다.
O _i 는 ^i번째 관측치에 대한 관측값입니다.
n은 표본 크기입니다.

RMSE가 작을수록 회귀 모델이 데이터를 더 잘 적합할 수 있습니다.

2. 분류: 반응 변수는 범주형입니다.

예를 들어 응답 변수는 다음 값을 사용할 수 있습니다.

남성 또는 여성
성공 또는 실패
낮음, 중간 또는 높음

각각의 경우 분류 모델은 클래스 레이블을 예측하려고 합니다.

분류 예:

100명의 대학 농구 선수에 대한 세 가지 변수(게임당 점수, 디비전 레벨, NBA 드래프트 여부)가 포함된 데이터 세트가 있다고 가정해 보겠습니다.

게임당 평균 점수와 디비전 레벨당 평균 점수를 설명 변수로 사용하고 “초안”을 응답 변수로 사용하는 분류 모델을 적용할 수 있습니다.

그런 다음 이 모델을 사용하여 게임 평균 점수와 디비전 레벨을 기반으로 특정 선수가 NBA에 드래프트될지 여부를 예측할 수 있습니다.

응답 변수(“작성된”)가 범주형이므로 이는 분류 모델의 예입니다. 즉, “작성됨” 또는 “미작성”이라는 두 가지 범주의 값만 가져올 수 있습니다.

분류 모델의 정확도를 측정하는 가장 일반적인 방법은 단순히 모델이 수행한 올바른 분류의 백분율을 계산하는 것입니다.

정확도 = 수정 분류 / 총 분류 시도 횟수 * 100%

예를 들어, 모델이 선수가 NBA에 드래프트될 것인지 여부를 100번 중 88번 정확하게 식별하는 경우 모델의 정확도는 다음과 같습니다.

정확도 = (88/100) * 100% = 88%

정확도가 높을수록 분류 모델이 결과를 더 잘 예측할 수 있습니다.

회귀와 분류의 유사점

회귀 및 분류 알고리즘은 다음과 같은 점에서 유사합니다.

둘 다 지도 학습 알고리즘입니다. 즉, 둘 다 응답 변수를 포함합니다.
둘 다 하나 이상의 설명 변수를 사용하여 반응을 예측하는 모델을 만듭니다.
둘 다 설명 변수 값의 변화가 응답 변수 값에 어떤 영향을 미치는지 이해하는 데 사용할 수 있습니다.

회귀와 분류의 차이점

회귀 및 분류 알고리즘은 다음과 같은 점에서 다릅니다.

회귀 알고리즘은 연속 수량을 예측하려고 하며 분류 알고리즘은 클래스 레이블을 예측하려고 합니다.
회귀 및 분류 모델의 정확도를 측정하는 방법은 다릅니다.

회귀를 분류로 변환

회귀 문제는 단순히 반응 변수를 구획으로 구분함으로써 분류 문제로 변환될 수 있다는 점에 유의해야 합니다.

예를 들어 면적, 욕실 수, 판매 가격이라는 세 가지 변수가 포함된 데이터 세트가 있다고 가정해 보겠습니다.

판매 가격을 예측하기 위해 면적과 욕실 수를 사용하여 회귀 모델을 구축할 수 있습니다.

그러나 판매 가격을 세 가지 클래스로 구분할 수 있습니다.

$80,000 – $160,000: “낮은 판매 가격”
$161,000 – $240,000: “평균 판매 가격”
$241,000 – $320,000: “높은 판매 가격”

그런 다음 평방 피트와 욕실 수를 설명 변수로 사용하여 특정 주택의 판매 가격이 어느 등급(낮음, 중간 또는 높음)에 속하는지 예측할 수 있습니다.

각 집을 하나의 클래스에 배치하려고 하기 때문에 이것은 분류 모델의 예가 될 것입니다.

요약

다음 표에는 회귀 알고리즘과 분류 알고리즘 간의 유사점과 차이점이 요약되어 있습니다.

회귀와 분류의 차이점

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

회귀와 분류의 유사점

회귀와 분류의 차이점

회귀를 분류로 변환

요약

저자 소개

벤자민 앤더슨

의견을 추가하다