Что такое ошибка прогноза в статистике? (определение и примеры)

К бенджамин андерсон 21 июля, 2023 Гид 0 комментариев

В статистике ошибка прогнозирования относится к разнице между значениями, предсказанными определенными моделями, и фактическими значениями.

Ошибка прогноза часто используется в двух контекстах:

1. Линейная регрессия: используется для прогнозирования значения переменной непрерывного отклика.

Обычно мы измеряем ошибку прогнозирования модели линейной регрессии с помощью метрики, известной как RMSE , что означает среднеквадратическую ошибку.

Он рассчитывается следующим образом:

RMSE = √ Σ(ŷ _i – y _i ) ² / n

Золото:

Σ — символ, означающий «сумма».
ŷ _i — прогнозируемое значение для i- ^го наблюдения
y _i — наблюдаемое значение для ^i-го наблюдения
n — размер выборки

2. Логистическая регрессия: используется для прогнозирования значения переменной двоичного ответа.

Распространенный способ измерения ошибки прогнозирования модели логистической регрессии — использовать показатель, известный как общая частота ошибок классификации.

Он рассчитывается следующим образом:

Общий коэффициент ошибочной классификации = (количество неверных прогнозов / общее количество прогнозов)

Чем ниже значение коэффициента ошибочной классификации, тем лучше модель способна предсказать результаты переменной отклика.

В следующих примерах показано, как на практике рассчитать ошибку прогнозирования для модели линейной регрессии и модели логистической регрессии.

Пример 1. Вычисление ошибки прогнозирования в линейной регрессии

Предположим, мы используем регрессионную модель, чтобы предсказать, сколько очков наберут 10 игроков в баскетбольном матче.

В следующей таблице показаны очки, предсказанные моделью, в сравнении с фактическими очками, набранными игроками:

Мы могли бы рассчитать среднеквадратическую ошибку (RMSE) следующим образом:

RMSE = √ Σ(ŷ _i – y _i ) ² / n
СКО = √(((14-12) ² +(15-15) ² +(18-20) ² +(19-16) ² +(25-20) ² +(18-19) ² +(12- 16) ² +(12-20) ² +(15-16) ² +(22-16) ² ) / 10)
СКО = 4

Среднеквадратическая ошибка равна 4. Это говорит нам о том, что среднее отклонение между прогнозируемыми и фактически набранными баллами равно 4.

Связанный: Что считается хорошим значением RMSE?

Пример 2: Вычисление ошибки прогнозирования в логистической регрессии

Предположим, мы используем модель логистической регрессии, чтобы предсказать, будут ли 10 баскетболистов колледжа выбраны в НБА.

В следующей таблице показаны прогнозируемые результаты для каждого игрока в сравнении с фактическими результатами (1 = выбран, 0 = не выбран):

Мы могли бы рассчитать общий уровень ошибочной классификации следующим образом:

Общий коэффициент ошибочной классификации = (количество неверных прогнозов / общее количество прогнозов)
Общая частота ошибок классификации = 4/10.
Общий уровень ошибочной классификации = 40%

Общая доля ошибок классификации составляет 40% .

Это значение довольно велико и указывает на то, что модель не очень хорошо прогнозирует, будет ли игрок выбран на драфте или нет.

Дополнительные ресурсы

Следующие учебные пособия знакомят с различными типами методов регрессии:

Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Введение в логистическую регрессию

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше

Пример 1. Вычисление ошибки прогнозирования в линейной регрессии

Пример 2: Вычисление ошибки прогнозирования в логистической регрессии

Дополнительные ресурсы

Об авторе

бенджамин андерсон

Добавить комментарий