Как читать и интерпретировать таблицу регрессии


В статистике регрессия — это метод, который можно использовать для анализа взаимосвязи между переменными-предикторами и переменной ответа.

Когда вы используете программное обеспечение (например, R, SAS, SPSS и т. д.) для выполнения регрессионного анализа, вы получите на выходе таблицу регрессии, обобщающую результаты регрессии. Важно уметь читать эту таблицу, чтобы понять результаты регрессионного анализа.

В этом руководстве показан пример регрессионного анализа и подробно объяснено, как читать и интерпретировать результаты таблицы регрессии.

Пример регрессии

Предположим, у нас есть следующий набор данных, который показывает общее количество учебных часов, общее количество сданных подготовительных экзаменов и оценку за выпускной экзамен для 12 разных студентов:

Чтобы проанализировать взаимосвязь между учебными часами и сданными подготовительными экзаменами с итоговой оценкой за экзамен, которую получает студент, мы выполняем множественную линейную регрессию, используя количество учебных часов и количество сданных подготовительных экзаменов в качестве предикторных переменных, а итоговую экзаменационную оценку — как переменную ответа.

Получаем следующий результат:

Проверка соответствия модели

В первом разделе показано несколько разных чисел, которые измеряют соответствие модели регрессии, то есть насколько хорошо модель регрессии может «подогнать» набор данных.

Вот как интерпретировать каждое из чисел в этом разделе:

Несколько рупий

Это коэффициент корреляции . Он измеряет силу линейной связи между переменными-предикторами и переменной ответа. R, кратный 1, указывает на идеальную линейную связь, тогда как R, кратный 0, указывает на отсутствие линейной зависимости. Множественное R представляет собой квадратный корень из R в квадрате (см. ниже).

В этом примере кратное R равно 0,72855 , что указывает на довольно сильную линейную связь между часами обучения и подготовительными экзаменами предикторов и итоговой оценкой экзамена переменной ответа.

R-квадрат

Его часто записывают как r2 и также называют коэффициентом детерминации . Это доля дисперсии переменной отклика, которую можно объяснить с помощью предикторной переменной.

Значение R-квадрата может находиться в диапазоне от 0 до 1. Значение 0 указывает на то, что переменная ответа вообще не может быть объяснена переменной-предиктором. Значение 1 указывает на то, что переменная ответа может быть полностью без ошибок объяснена переменной-предиктором.

В этом примере R-квадрат равен 0,5307 , что указывает на то, что 53,07% разницы в результатах итогового экзамена можно объяснить количеством изученных часов и количеством прошедших практических экзаменов.

Связанный: Что такое хорошее значение R-квадрата?

Скорректированный R-квадрат

Это модифицированная версия R-квадрата, скорректированная в зависимости от количества предикторов в модели. Оно всегда меньше R в квадрате. Скорректированный R-квадрат может быть полезен для сравнения соответствия различных моделей регрессии друг другу.

В этом примере скорректированный R-квадрат равен 0,4265.

Стандартная ошибка регрессии

Стандартная ошибка регрессии — это среднее расстояние между наблюдаемыми значениями и линией регрессии. В данном примере наблюдаемые значения отклоняются в среднем на 7,3267 единиц от линии регрессии.

Связанный: Понимание стандартной ошибки регрессии

Комментарии

Это просто количество наблюдений в нашем наборе данных. В этом примере общее количество наблюдений равно 12 .

Проверка общей значимости регрессионной модели

В следующем разделе показаны степени свободы, сумма квадратов, средние квадраты, статистика F и общая значимость регрессионной модели.

Вот как интерпретировать каждое из чисел в этом разделе:

Степени свободы регрессии

Это число равно: количество коэффициентов регрессии – 1. В этом примере у нас есть исходный терм и две переменные-предикторы, поэтому всего у нас есть три коэффициента регрессии, что означает, что степени свободы регрессии составляют 3 – 1. = 2 .

Полные степени свободы

Это число равно: количество наблюдений – 1. В данном примере у нас 12 наблюдений, поэтому общее количество степеней свободы равно 12 – 1 = 11 .

Остаточные степени свободы

Это число равно: общая df – регрессия df. В этом примере остаточные степени свободы составляют 11 – 2 = 9 .

Средние квадраты

Средние квадраты регрессии рассчитываются с помощью регрессии SS/df-регрессии. В этом примере регрессия MS = 546,53308/2 = 273,2665 .

Остаточные средние квадраты рассчитываются по формуле «остаток SS/остаток df». В этом примере остаток MS = 483,1335/9 = 53,68151 .

F-статистика

Статистика f рассчитывается как регрессия MS/остаток MS. Эта статистика показывает, обеспечивает ли регрессионная модель лучшее соответствие данным, чем модель, не содержащая независимых переменных.

По сути, он проверяет, полезна ли регрессионная модель в целом. Как правило, если ни одна из переменных-предсказателей в модели не является статистически значимой, общая статистика F также не является статистически значимой.

В этом примере статистика F равна 273,2665/53,68151 = 5,09 .

Важность F (значение P)

Последнее значение в таблице — это значение p, связанное со статистикой F. Чтобы увидеть, является ли общая регрессионная модель значимой, вы можете сравнить значение p с уровнем значимости; распространенный выбор: .01, .05 и .10.

Если значение p ниже уровня значимости, имеется достаточно доказательств, чтобы сделать вывод, что модель регрессии лучше соответствует данным, чем модель без переменной-предиктора. Этот результат является положительным, поскольку означает, что переменные-предикторы модели фактически улучшают ее соответствие.

В этом примере значение p равно 0,033 , что ниже общего уровня значимости 0,05. Это указывает на то, что модель регрессии в целом статистически значима, то есть модель лучше соответствует данным, чем модель без переменных-предикторов.

Проверка общей значимости регрессионной модели

В последнем разделе представлены оценки коэффициентов, стандартная ошибка оценок, t-статистика, значения p и доверительные интервалы для каждого члена регрессионной модели.

Вот как интерпретировать каждое из чисел в этом разделе:

Коэффициенты

Коэффициенты дают нам числа, необходимые для записи предполагаемого уравнения регрессии:

y шляпа знак равно б 0 + б 1 Икс 1 + б 2 Икс 2 .

В этом примере предполагаемое уравнение регрессии:

Итоговый экзамен = 66,99 + 1,299 (учебные часы) + 1,117 (подготовительные экзамены)

Каждый отдельный коэффициент интерпретируется как среднее увеличение переменной ответа для каждого увеличения на одну единицу данной переменной-предиктора, при условии, что все остальные переменные-предикторы остаются постоянными. Например, за каждый дополнительный час обучения ожидаемое среднее увеличение результата выпускного экзамена составляет 1299 баллов, при условии, что количество сданных подготовительных экзаменов останется постоянным.

Отрезок интерпретируется как ожидаемая средняя оценка на итоговом экзамене для студента, который учится ноль часов и не сдает подготовительных экзаменов. В этом примере ожидается, что студент наберет 66,99 баллов, если он учится ноль часов и не сдает подготовительных экзаменов. Будьте осторожны при интерпретации результата регрессии, поскольку это не всегда имеет смысл.

Например, в некоторых случаях перехват может оказаться отрицательным числом, которое часто не имеет очевидной интерпретации. Это не означает, что модель неверна, это просто означает, что сам перехват не должен интерпретироваться как что-либо значащее.

Стандартная ошибка, статистика t и значения p

Стандартная ошибка — это мера неопределенности оценки коэффициента для каждой переменной.

Т-статистика — это просто коэффициент, разделенный на стандартную ошибку. Например, t-статистика для учебных часов равна 1,299/0,417 = 3,117.

В следующем столбце показано значение p, связанное с t-stat. Это число говорит нам, является ли данная переменная ответа значимой в модели. В этом примере мы видим, что значение p для учебных часов составляет 0,012, а значение p для подготовительных экзаменов — 0,304. Это указывает на то, что часы обучения являются важным фактором, предсказывающим оценку итогового экзамена, в отличие от практических экзаменов .

Доверительный интервал для оценок коэффициентов

В последних двух столбцах таблицы указаны нижняя и верхняя границы 95% доверительного интервала для оценок коэффициентов.

Например, оценка коэффициента для учебных часов составляет 1,299, но в отношении этой оценки существует некоторая неопределенность. Мы никогда не сможем знать наверняка, является ли это точным коэффициентом. Таким образом, доверительный интервал 95% дает нам диапазон вероятных значений истинного коэффициента.

В этом случае 95% доверительный интервал для учебных часов составляет (0,356, 2,24). Обратите внимание, что этот доверительный интервал не содержит цифры «0», что означает, что мы полностью уверены в том, что истинное значение коэффициента учебных часов ненулевое, т.е. положительное число.

Напротив, 95% доверительный интервал для подготовительных экзаменов составляет (-1,201, 3,436). Обратите внимание, что этот доверительный интервал содержит цифру «0», что означает, что истинное значение коэффициента подготовительных экзаменов может быть равно нулю, то есть не существенно для прогнозирования результатов итогового экзамена.

Дополнительные ресурсы

Понимание нулевой гипотезы для линейной регрессии
Понимание F-теста на общую значимость регрессии
Как сообщить о результатах регрессии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *