Понимание стандартной ошибки регрессии
Когда мы подгоняем модель регрессии к набору данных, нас часто интересует, насколько хорошо модель регрессии «соответствует» набору данных. Двумя обычно используемыми метриками для измерения степени соответствия являются R-квадрат ( R2 ) и стандартная ошибка регрессии , часто обозначаемая S.
В этом руководстве объясняется, как интерпретировать стандартную ошибку регрессии (S), а также почему она может предоставить более полезную информацию, чем R 2 .
Стандартная ошибка по сравнению с R-квадратом в регрессии
Предположим, у нас есть простой набор данных, который показывает, сколько часов 12 студентов учились в день в течение месяца перед важным экзаменом, а также их баллы за экзамен:
Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:
R в квадрате — это доля дисперсии переменной отклика, которую можно объяснить переменной-предиктором. В этом случае 65,76% разницы в результатах экзаменов можно объяснить количеством часов, потраченных на обучение.
Стандартная ошибка регрессии — это среднее расстояние между наблюдаемыми значениями и линией регрессии. При этом наблюдаемые значения отклоняются в среднем на 4,89 единицы от линии регрессии.
Если мы построим фактические точки данных с помощью линии регрессии, мы увидим это более четко:
Обратите внимание, что некоторые наблюдения лежат очень близко к линии регрессии, а другие — нет. Но в среднем наблюдаемые значения отклоняются от линии регрессии на 4,19 единицы .
Стандартная ошибка регрессии особенно полезна, поскольку ее можно использовать для оценки точности прогнозов. Примерно 95% наблюдений должны попадать в пределах +/- двух стандартных ошибок регрессии, что является быстрым приближением к 95%-му интервалу прогнозирования.
Если мы хотим делать прогнозы с использованием модели регрессии, стандартная ошибка регрессии может быть более полезной мерой, чем R-квадрат, поскольку она дает нам представление о том, насколько точны наши прогнозы в единицах измерения.
Чтобы проиллюстрировать, почему стандартная ошибка регрессии может быть более полезным показателем для оценки «пригодности» модели, давайте рассмотрим другой пример набора данных, который показывает, сколько часов 12 студентов учились в день в течение одного месяца, предшествующего важному экзамену, а также результат экзамена:
Обратите внимание, что это тот же набор данных, что и раньше, за исключением того, что все значения s уменьшены вдвое . Таким образом, студенты в этом наборе данных учились ровно вдвое меньше, чем студенты в предыдущем наборе данных, и получили ровно половину оценки за экзамен.
Если мы подгоним простую модель линейной регрессии к этому набору данных в Excel, мы получим следующий результат:
Обратите внимание, что R в квадрате 65,76% точно такой же, как и в предыдущем примере.
Однако стандартная ошибка регрессии составляет 2,095 , что составляет ровно половину стандартной ошибки регрессии в предыдущем примере.
Если мы построим фактические точки данных с помощью линии регрессии, мы увидим это более четко:
Обратите внимание, что наблюдения гораздо плотнее группируются вокруг линии регрессии. В среднем наблюдаемые значения расположены на расстоянии 2095 единиц от линии регрессии.
Таким образом, хотя обе модели регрессии имеют R-квадрат 65,76% , мы знаем, что вторая модель обеспечит более точные прогнозы, поскольку она имеет меньшую стандартную ошибку регрессии.
Преимущества использования стандартной ошибки
Знать стандартную ошибку регрессии (S) зачастую полезнее, чем R-квадрат модели, поскольку она дает нам фактические единицы измерения. Если мы хотим использовать регрессионную модель для получения прогнозов, S может очень легко сказать нам, достаточно ли точна модель, чтобы ее можно было использовать в целях прогнозирования.
Например, предположим, что мы хотим создать 95%-ный интервал прогнозирования, в котором мы можем предсказать результаты экзамена с точностью до 6 баллов от фактического балла.
Наша первая модель имеет R-квадрат 65,76%, но это ничего не говорит нам о точности нашего интервала прогнозирования. К счастью, мы также знаем, что первая модель имеет S 4,19. Это означает, что интервал прогнозирования 95% будет иметь ширину примерно 2*4,19 = +/- 8,38 единиц, что слишком широко для нашего интервала прогнозирования.
Наша вторая модель также имеет R-квадрат 65,76%, но опять же, это ничего не говорит нам о точности нашего интервала прогнозирования. Однако мы знаем, что вторая модель имеет S 2,095. Это означает, что интервал прогнозирования 95% будет иметь ширину примерно 2 * 2,095 = +/- 4,19 единиц, что меньше 6 и, следовательно, достаточно точно, чтобы его можно было использовать для создания интервалов прогнозирования.
дальнейшее чтение
Введение в простую линейную регрессию
Что такое хорошее значение R-квадрата?