Маэ против. rmse: какую метрику следует использовать?


Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Всякий раз, когда мы подгоняем модель регрессии, мы хотим понять, насколько хорошо модель может использовать значения переменных-предикторов для прогнозирования значения переменной отклика.

Два показателя, которые мы часто используем для количественной оценки того, насколько хорошо модель соответствует набору данных, — это средняя абсолютная ошибка (MAE) и среднеквадратическая ошибка (RMSE), которые рассчитываются следующим образом:

MAE : показатель, который сообщает нам среднюю абсолютную разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже MAE, тем лучше модель соответствует набору данных.

MAE = 1/n * Σ|y i – ŷ i |

Золото:

  • Σ — символ, означающий «сумма».
  • y i — наблюдаемое значение для i-го наблюдения
  • ŷ i — прогнозируемое значение для i- го наблюдения
  • n — размер выборки

RMSE : показатель, который сообщает нам квадратный корень из среднеквадратической разницы между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.

Он рассчитывается следующим образом:

RMSE = √ Σ(y i – ŷ i ) 2 / n

Золото:

  • Σ — символ, означающий «сумма».
  • ŷ i — прогнозируемое значение для i- го наблюдения
  • y i — наблюдаемое значение для i-го наблюдения
  • n — размер выборки

Пример: расчет RMSE и MAE

Предположим, мы используем регрессионную модель, чтобы предсказать, сколько очков наберут 10 игроков в баскетбольном матче.

В следующей таблице показаны очки, предсказанные моделью, в сравнении с фактическими очками, набранными игроками:

Используя калькулятор МАЭ, мы можем рассчитать, что МАЭ составляет 3,2.

Это говорит нам о том, что средняя абсолютная разница между значениями, прогнозируемыми моделью, и фактическими значениями составляет 3,2.

Используя калькулятор RMSE , мы можем вычислить, что RMSE равно 4 .

Это говорит нам о том, что квадратный корень из среднеквадратичной разницы между прогнозируемыми и фактически набранными баллами равен 4.

Обратите внимание, что каждая метрика дает нам представление о типичной разнице между прогнозируемым значением, полученным моделью, и фактическим значением в наборе данных, но интерпретация каждой метрики немного отличается.

RMSE против MAE: какой показатель следует использовать?

Если вы хотите присвоить больший вес наблюдениям, которые находятся дальше от среднего значения (т. е. если отклонение 20 более чем в два раза хуже, чем отклонение 10), лучше использовать RMSE для измерения ошибки, поскольку RMSE более чувствителен к наблюдениям, далеким от среднего значения.

Однако если «смещение» на уровне 20 в два раза хуже, чем «смещение» на уровне 10, тогда лучше использовать MAE.

Чтобы проиллюстрировать это, предположим, что у нас есть игрок, который явно выделяется по количеству набранных очков:

Используя онлайн-калькуляторы, упомянутые ранее, мы можем рассчитать MAE и RMSE как:

  • МАЭ : 8
  • СКО : 16,4356

Обратите внимание, что RMSE увеличивается гораздо больше, чем MAE.

Это связано с тем, что RMSE использует в своей формуле квадратичные разности, а квадратичная разница между наблюдаемым значением 76 и прогнозируемым значением 22 довольно велика. Это приводит к значительному увеличению значения RMSE.

На практике мы обычно подгоняем несколько моделей регрессии к набору данных и рассчитываем только одну из этих метрик для каждой модели.

Например, мы могли бы подогнать три разные модели регрессии и рассчитать RMSE для каждой модели. Затем мы бы выбрали модель с наименьшим значением RMSE в качестве «лучшей» модели, поскольку именно она делает прогнозы наиболее близкими к фактическим значениям в наборе данных.

В любом случае просто убедитесь, что вы рассчитываете одну и ту же метрику для каждой модели. Например, не рассчитывайте MAE для одной модели и RMSE для другой модели, а затем сравнивайте эти два измерения.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать MAE с использованием различного статистического программного обеспечения:

Как рассчитать среднюю абсолютную ошибку в Excel
Как рассчитать среднюю абсолютную ошибку в R
Как рассчитать среднюю абсолютную ошибку в Python

В следующих руководствах объясняется, как рассчитать RMSE с использованием различного статистического программного обеспечения:

Как рассчитать среднеквадратическую ошибку в Excel
Как рассчитать среднеквадратическую ошибку в R
Как вычислить среднеквадратическую ошибку в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *