Как интерпретировать результаты регрессии в excel
Множественная линейная регрессия — один из наиболее часто используемых методов во всей статистике.
В этом руководстве объясняется, как интерпретировать каждое значение в выходных данных модели множественной линейной регрессии в Excel.
Пример. Интерпретация результатов регрессии в Excel
Предположим, мы хотим знать, влияет ли количество часов, потраченных на обучение, и количество сданных подготовительных экзаменов на оценку, которую студент получает на определенном вступительном экзамене в колледж.
Чтобы изучить эту взаимосвязь, мы можем выполнить множественную линейную регрессию, используя часы обучения и подготовительные экзамены, принимаемые в качестве предикторных переменных, а баллы на экзаменах — в качестве переменной ответа.
На следующем снимке экрана показаны результаты регрессии этой модели в Excel:
Вот как интерпретировать самые большие значения в выводе:
Множественный R: 0,857 . Это представляет собой множественную корреляцию между переменной ответа и двумя переменными-предикторами.
R Квадрат: 0,734 . Это называется коэффициентом детерминации. Это доля дисперсии переменной отклика, которую можно объяснить объясняющими переменными. В этом примере 73,4% разницы в экзаменационных баллах объясняется количеством учебных часов и количеством сданных подготовительных экзаменов.
Скорректированный квадрат R: 0,703 . Это представляет собой значение R Square, скорректированное с учетом количества переменных-предикторов в модели . Это значение также будет ниже, чем значение R Square, и будет наказывать модели, которые используют слишком много переменных-предикторов в модели.
Стандартная ошибка: 5.366 . Это среднее расстояние между наблюдаемыми значениями и линией регрессии. В данном примере наблюдаемые значения отклоняются в среднем на 5366 единиц от линии регрессии.
Комментарии: 20 . Общий размер выборки набора данных, использованного для создания регрессионной модели.
F: 23:46 Это общая статистика F для регрессионной модели, рассчитанная как регрессионное MS/остаточное MS.
Значение F: 0,0000 . Это значение p, связанное с общей статистикой F. Это говорит нам, является ли регрессионная модель в целом статистически значимой или нет.
В этом случае значение p меньше 0,05, что указывает на то, что объясняющие переменные , часы обучения и сданные подготовительные экзамены вместе взятые имеют статистически значимую связь с результатом экзамена .
Коэффициенты: Коэффициенты каждой объясняющей переменной говорят нам об ожидаемом среднем изменении переменной отклика, при условии, что другая объясняющая переменная остается постоянной.
Например, ожидается, что за каждый дополнительный час, потраченный на учебу, средний балл на экзамене увеличится на 5,56 , при условии, что сдаваемые практические экзамены останутся постоянными.
Мы интерпретируем коэффициент пересечения как означающий, что ожидаемый результат экзамена для студента, который не учится и не сдает подготовительные экзамены, составляет 67,67 .
P-значения. Отдельные значения p говорят нам, является ли каждая объясняющая переменная статистически значимой или нет. Мы видим, что количество учебных часов является статистически значимым (p = 0,00), в то время как сданные подготовительные экзамены (p = 0,52) не являются статистически значимыми при α = 0,05.
Как написать расчетное уравнение регрессии
Мы можем использовать коэффициенты из выходных данных модели, чтобы создать следующее расчетное уравнение регрессии:
Экзаменационный балл = 67,67 + 5,56*(часы) – 0,60*(подготовительные экзамены)
Мы можем использовать это расчетное уравнение регрессии для расчета ожидаемого результата экзамена для студента на основе количества учебных часов и количества практических экзаменов, которые он сдает.
Например, студент, который учится три часа и сдает подготовительный экзамен, должен получить оценку 83,75 :
Оценка на экзамене = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Имейте в виду, что, поскольку прошлые подготовительные экзамены не были статистически значимыми (p=0,52), мы можем принять решение удалить их, поскольку они не улучшают общую модель.
В этом случае мы могли бы выполнить простую линейную регрессию, используя только изученные часы в качестве объясняющей переменной.
Дополнительные ресурсы
Введение в простую линейную регрессию
Введение в множественную линейную регрессию