Регрессия или классификация: в чем разница?


Алгоритмы машинного обучения можно разделить на два различных типа: алгоритмы обучения с учителем и без учителя .

Алгоритмы машинного обучения регрессии или классификации

Алгоритмы обучения с учителем можно разделить на два типа:

1. Регрессия: переменная отклика является непрерывной.

Например, переменная ответа может быть:

  • Масса
  • Высота
  • Цена
  • Время
  • Всего единиц

В каждом случае регрессионная модель стремится предсказать непрерывную величину.

Пример регрессии:

Допустим, у нас есть набор данных, содержащий три переменные для 100 разных домов: площадь, количество ванных комнат и цена продажи.

Мы могли бы использовать регрессионную модель, которая использует квадратные метры и количество ванных комнат в качестве объясняющих переменных, а цену продажи — в качестве переменной ответа.

Затем мы могли бы использовать эту модель для прогнозирования продажной цены дома на основе его площади и количества ванных комнат.

Это пример регрессионной модели, поскольку переменная ответа (цена продажи) является непрерывной.

Самый распространенный способ измерения точности регрессионной модели — это расчет среднеквадратической ошибки (RMSE), показателя, который говорит нам, насколько в среднем далеки наши прогнозируемые значения от наблюдаемых значений в модели. Он рассчитывается следующим образом:

RMSE = √ Σ(P i – O i ) 2 / n

Золото:

  • Σ — причудливый символ, означающий «сумма».
  • Pi — прогнозируемое значение для i-го наблюдения.
  • O i — наблюдаемое значение для i-го наблюдения
  • n — размер выборки

Чем меньше RMSE, тем лучше регрессионная модель может соответствовать данным.

2. Классификация: переменная ответа является категориальной.

Например, переменная ответа может принимать следующие значения:

  • Мужчина или женщина
  • Успех или провал
  • Низкий, средний или высокий

В каждом случае модель классификации пытается предсказать метку класса.

Пример классификации:

Допустим, у нас есть набор данных, содержащий три переменные для 100 разных баскетболистов колледжей: среднее количество очков за игру, уровень дивизиона и вопрос о том, были ли они выбраны в НБА или нет.

Мы могли бы адаптировать модель классификации, которая использует среднее количество очков за игру и за уровень дивизиона в качестве объясняющих переменных и «проектируется» в качестве переменной ответа.

Затем мы могли бы использовать эту модель, чтобы предсказать, будет ли выбран тот или иной игрок в НБА, основываясь на его среднем количестве очков за игру и уровне дивизиона.

Это пример модели классификации, поскольку переменная ответа («записанная») является категориальной. Другими словами, он может принимать значения только в двух разных категориях: «Написано» или «Не составлено».

Самый распространенный способ измерения точности модели классификации — это просто вычислить процент правильных классификаций, выполненных моделью:

Точность = корректирующие классификации / общее количество попыток классификации * 100 %.

Например, если модель правильно определяет, будет ли игрок выбран в НБА 88 раз из 100 возможных, то точность модели составит:

Точность = (88/100) * 100% = 88%

Чем выше точность, тем лучше модель классификации способна предсказывать результаты.

Сходства между регрессией и классификацией

Алгоритмы регрессии и классификации схожи в следующих отношениях:

  • Оба являются алгоритмами обучения с учителем, то есть оба включают переменную отклика.
  • Оба используют одну или несколько независимых переменных для создания моделей прогнозирования реакции.
  • И то, и другое можно использовать, чтобы понять, как изменения значений независимых переменных влияют на значения переменной отклика.

Различия между регрессией и классификацией

Алгоритмы регрессии и классификации различаются следующим образом:

  • Алгоритмы регрессии стремятся предсказать непрерывную величину, а алгоритмы классификации стремятся предсказать метку класса.
  • То, как мы измеряем точность моделей регрессии и классификации, различается.

Преобразование регрессии в классификацию

Следует отметить, что задачу регрессии можно преобразовать в задачу классификации, просто разделив переменную ответа на отсеки.

Например, предположим, что у нас есть набор данных, который содержит три переменные: площадь в квадратных метрах, количество ванных комнат и цена продажи.

Мы могли бы построить регрессионную модель, используя квадратные метры и количество ванных комнат, чтобы спрогнозировать цены продажи.

Однако мы могли бы разделить цену продажи на три разных класса:

  • 80 000–160 000 долларов США: «Низкая цена продажи».
  • 161 000–240 000 долларов США: «Средняя цена продажи».
  • 241 000–320 000 долларов США: «Высокая цена продажи».

Затем мы могли бы использовать квадратные метры и количество ванных комнат в качестве объясняющих переменных, чтобы предсказать, к какому классу (низкому, среднему или высокому) попадет продажная цена данного дома.

Это будет пример модели классификации, поскольку мы пытаемся отнести каждый дом к классу.

Краткое содержание

В следующей таблице приведены сходства и различия между алгоритмами регрессии и классификации:

Различия между регрессией и классификацией

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *