Как построить интервал прогнозирования в excel


В статистике простая линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между переменной-предиктором x и переменной отклика y.

Когда мы выполняем простую линейную регрессию, мы получаем «линию наилучшего соответствия», которая описывает взаимосвязь между x и y, которую можно записать как:

ŷ = б 0 + б 1 х

Золото:

  • ŷ — прогнозируемое значение переменной отклика
  • b 0 — точка пересечения оси y
  • b 1 – коэффициент регрессии
  • x — значение переменной-предиктора

Иногда мы хотим использовать эту линию наилучшего соответствия для построения интервала прогнозирования для данного значения x 0 , который представляет собой интервал вокруг прогнозируемого значения ŷ 0 , такой, что существует 95% вероятность того, что истинное значение y в совокупности соответствующий x 0 входит в этот интервал.

Формула расчета интервала прогнозирования для заданного значения x 0 записывается:

ŷ 0 +/- t α/2,df=n-2 * se

Золото:

se = S yx √(1 + 1/n + (x 0x ) 2 /SS x )

Формула может показаться немного пугающей, но на самом деле ее легко вычислить в Excel. Далее мы увидим пример использования этой формулы для расчета интервала прогнозирования для заданного значения в Excel.

Пример: как построить интервал прогнозирования в Excel

Следующий набор данных показывает количество учебных часов, а также баллы на экзамене, полученные 15 разными студентами:

Пример набора данных в Excel

Предположим, мы хотим создать 95%-ный интервал прогнозирования для значения x 0 = 3. То есть мы хотим создать такой интервал, чтобы существовала 95%-ная вероятность того, что результат экзамена попадет в этот интервал для студента, который учится на 3 часа.

На следующем снимке экрана показано, как вычислить все значения, необходимые для получения этого интервала прогнозирования.

Примечание. Формулы в столбце F показывают, как были рассчитаны значения в столбце E.

Как рассчитать интервал прогнозирования в Excel

95%-ный интервал прогнозирования для значения x 0 = 3 равен (74,64, 86,90) . То есть мы прогнозируем с вероятностью 95%, что студент, который учится 3 часа, получит оценку от 74,64 до 86,90.

Некоторые замечания по использованным расчетам:

  • Чтобы вычислить t-критическое значение t α/2,df=n-2, мы использовали α/2 = 0,05/2 = 0,25, поскольку нам нужен интервал прогнозирования 95%. Обратите внимание, что более высокие интервалы прогнозирования (например, интервал прогнозирования 99%) приведут к более широким интервалам. И наоборот, меньший интервал прогнозирования (например, интервал прогнозирования 90%) приведет к более узкому интервалу.
  • Мы использовали формулу =FORECAST() , чтобы получить прогнозируемое значение для ŷ 0 , но формула =FORECAST.LINEAR() вернет точно такое же значение.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *