Как делать прогнозы с помощью линейной регрессии
Линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .
Одной из наиболее распространенных причин использования модели регрессии является использование модели для прогнозирования значений новых наблюдений.
Для прогнозирования с помощью регрессионной модели мы используем следующие шаги:
- Шаг 1: Соберите данные.
- Шаг 2. Подберите к данным регрессионную модель.
- Шаг 3. Убедитесь, что модель соответствует данным.
- Шаг 4: Используйте подобранное уравнение регрессии, чтобы спрогнозировать значения новых наблюдений.
В следующих примерах показано, как использовать регрессионные модели для прогнозирования.
Пример 1. Прогнозирование с помощью простой модели линейной регрессии
Предположим, врач собирает данные о росте (в дюймах) и весе (в фунтах) 50 пациентов.
Затем он соответствует простой модели линейной регрессии, используя «вес» в качестве предикторной переменной и «рост» в качестве переменной отклика.
Подобранное уравнение регрессии:
Размер = 32,7830 + 0,2001*(вес)
Убедившись, что предположения модели линейной регрессии выполняются, врач приходит к выводу, что модель хорошо соответствует данным.
Затем он может использовать модель для прогнозирования роста новых пациентов на основе их веса.
Например, предположим, что новый пациент весит 170 фунтов. Используя модель, мы бы спрогнозировали, что рост этого пациента составит 66,8 дюйма:
Высота = 32,7830 + 0,2001*(170) = 66,8 дюйма.
Пример 2. Прогнозирование с помощью модели множественной линейной регрессии
Предположим, что экономист собирает данные об общем количестве лет обучения, отработанных часах в неделю и годовом доходе 30 человек.
Затем он соответствует модели множественной линейной регрессии, используя «общее количество лет обучения» и «отработанные часы в неделю» в качестве предикторной переменной и «годовой доход» в качестве переменной ответа.
Подобранное уравнение регрессии:
Доход = 1342,29 + 3324,33*(годы обучения) + 765,88*(отработанные часы в неделю)
Убедившись, что предположения модели линейной регрессии выполняются, экономист приходит к выводу, что модель хорошо соответствует данным.
Затем он может использовать модель для прогнозирования годового дохода нового человека на основе общего количества лет обучения и отработанных часов в неделю.
Например, предположим, что новый человек имеет в общей сложности 16 лет образования и работает в среднем 40 часов в неделю. Используя модель, мы бы спрогнозировали, что этот человек будет иметь годовой доход в размере 85 166,77 долларов США:
Доход = 1342,29 + 3324,33*(16) + 765,88*(45) = 85166,77 долларов США.
Об использовании доверительных интервалов
Когда вы используете модель регрессии для прогнозирования новых наблюдений, значение, предсказанное моделью регрессии, называетсяточечной оценкой .
Хотя точечная оценка представляет собой нашу лучшую оценку ценности нового наблюдения, она вряд ли точно соответствует значению нового наблюдения.
Итак, чтобы уловить эту неопределенность, мы можем создать доверительный интервал — диапазон значений, который может содержать параметр совокупности с определенным уровнем достоверности.
Например, вместо того, чтобы прогнозировать, что рост нового человека будет 66,8 дюйма, мы можем создать следующий доверительный интервал:
95% доверительный интервал = [64,8 дюйма, 68,8 дюйма]
Мы бы интерпретировали этот интервал как означающий, что мы на 95% уверены, что реальный рост этого человека составляет от 64,8 до 68,8 дюймов.
Меры предосторожности при составлении прогнозов
При использовании регрессионной модели для прогнозирования помните о следующих моментах:
1. Используйте модель только для прогнозирования в пределах диапазона данных, используемых для оценки регрессионной модели.
Например, предположим, что мы подгоняли регрессионную модель с использованием предикторной переменной «вес», а вес людей в выборке, которую мы использовали для оценки модели, составлял от 120 до 180 фунтов.
Было бы недопустимо использовать модель для оценки роста человека весом 200 фунтов, поскольку он находится за пределами диапазона предикторной переменной, которую мы использовали для оценки модели.
Вполне возможно, что соотношение между весом и ростом отличается за пределами диапазона от 120 до 180 фунтов. Поэтому нам не следует использовать эту модель для оценки роста человека весом 200 фунтов.
2. Используйте модель только для прогнозирования генеральной совокупности, которую вы выбрали.
Например, предположим, что экономист извлекает совокупность населения из выборки всех людей, живущих в определенном городе.
Нам следует использовать подобранную регрессионную модель только для прогнозирования годового дохода жителей этого города, поскольку вся выборка, используемая для соответствия модели, проживала в этом городе.
Дополнительные ресурсы
Введение в простую линейную регрессию
Введение в множественную линейную регрессию
Введение в доверительные интервалы
Четыре предположения линейной регрессии