Как построить интервал прогнозирования в excel
В статистике простая линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между переменной-предиктором x и переменной отклика y.
Когда мы выполняем простую линейную регрессию, мы получаем «линию наилучшего соответствия», которая описывает взаимосвязь между x и y, которую можно записать как:
ŷ = б 0 + б 1 х
Золото:
- ŷ — прогнозируемое значение переменной отклика
- b 0 — точка пересечения оси y
- b 1 – коэффициент регрессии
- x — значение переменной-предиктора
Иногда мы хотим использовать эту линию наилучшего соответствия для построения интервала прогнозирования для данного значения x 0 , который представляет собой интервал вокруг прогнозируемого значения ŷ 0 , такой, что существует 95% вероятность того, что истинное значение y в совокупности соответствующий x 0 входит в этот интервал.
Формула расчета интервала прогнозирования для заданного значения x 0 записывается:
ŷ 0 +/- t α/2,df=n-2 * se
Золото:
se = S yx √(1 + 1/n + (x 0 – x ) 2 /SS x )
Формула может показаться немного пугающей, но на самом деле ее легко вычислить в Excel. Далее мы увидим пример использования этой формулы для расчета интервала прогнозирования для заданного значения в Excel.
Пример: как построить интервал прогнозирования в Excel
Следующий набор данных показывает количество учебных часов, а также баллы на экзамене, полученные 15 разными студентами:
Предположим, мы хотим создать 95%-ный интервал прогнозирования для значения x 0 = 3. То есть мы хотим создать такой интервал, чтобы существовала 95%-ная вероятность того, что результат экзамена попадет в этот интервал для студента, который учится на 3 часа.
На следующем снимке экрана показано, как вычислить все значения, необходимые для получения этого интервала прогнозирования.
Примечание. Формулы в столбце F показывают, как были рассчитаны значения в столбце E.
95%-ный интервал прогнозирования для значения x 0 = 3 равен (74,64, 86,90) . То есть мы прогнозируем с вероятностью 95%, что студент, который учится 3 часа, получит оценку от 74,64 до 86,90.
Некоторые замечания по использованным расчетам:
- Чтобы вычислить t-критическое значение t α/2,df=n-2, мы использовали α/2 = 0,05/2 = 0,25, поскольку нам нужен интервал прогнозирования 95%. Обратите внимание, что более высокие интервалы прогнозирования (например, интервал прогнозирования 99%) приведут к более широким интервалам. И наоборот, меньший интервал прогнозирования (например, интервал прогнозирования 90%) приведет к более узкому интервалу.
- Мы использовали формулу =FORECAST() , чтобы получить прогнозируемое значение для ŷ 0 , но формула =FORECAST.LINEAR() вернет точно такое же значение.