R кратный или r квадратный: в чем разница?


Когда вы подгоняете модель регрессии с помощью большинства статистических программ, вы часто замечаете в результате следующие два значения:

Множественный R: коэффициент множественной корреляции между тремя или более переменными.

R-квадрат: рассчитывается как (Multiple R) 2 и представляет собой долю дисперсии переменной отклика регрессионной модели, которую можно объяснить переменными-предикторами. Это значение варьируется от 0 до 1.

На практике нас часто интересует значение R-квадрата, поскольку оно говорит нам, насколько полезны переменные-предикторы для прогнозирования значения переменной отклика.

Однако каждый раз, когда мы добавляем в модель новую предикторную переменную, R-квадрат гарантированно увеличивается, даже если предикторная переменная бесполезна.

Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели. Он рассчитывается следующим образом:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

Золото:

  • R 2 : R 2 модели.
  • n : Количество наблюдений
  • k : Количество переменных-предсказателей

Поскольку R-квадрат всегда увеличивается по мере добавления в модель большего количества предикторов, скорректированный R-квадрат может служить показателем, который говорит вам, насколько полезна модель, скорректированная на основе количества предикторов в модели .

Чтобы лучше понять каждый из этих терминов, рассмотрим следующий пример.

Пример: множественный R, R-квадрат и скорректированный R-квадрат.

Предположим, у нас есть следующий набор данных, который содержит следующие три переменные для 12 разных студентов:

Предположим, мы подбираем модель множественной линейной регрессии, используя часы обучения и текущую оценку в качестве переменных-предсказателей, а оценку на экзамене в качестве переменной ответа, и получаем следующий результат:

Множественный R против R-квадрата

Мы можем наблюдать значения следующих трех показателей:

Множественный R: 0,978 . Это представляет собой множественную корреляцию между переменной ответа и двумя переменными-предикторами.

R Квадрат: 0,956 . Это рассчитывается как (Множественное R) 2 = (0,978) 2 = 0,956. Это говорит нам о том, что 95,6% различий в результатах экзаменов можно объяснить количеством часов, потраченных студентами на обучение, и их текущей оценкой по курсу.

Скорректированный R-квадрат: 0,946 . Это рассчитывается следующим образом:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)] = 1 – [(1-.956)*(12-1)/(12-2-1) ] = 0,946.

Это представляет собой значение R-квадрата, скорректированное с учетом количества переменных-предикторов в модели .

Эта мера была бы полезна, если, например, мы подогнали другую модель регрессии с 10 предикторами и обнаружили, что скорректированный R-квадрат этой модели составил 0,88 . Это указывает на то, что модель регрессии только с двумя предикторами лучше, поскольку она имеет более высокое скорректированное значение R-квадрата.

Дополнительные ресурсы

Введение в множественную линейную регрессию
Что такое хорошее значение R-квадрата?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *