Коэффициент детерминации (r в квадрате)

В этой статье объясняется, что такое коэффициент детерминации (или R-квадрат) в статистике. Итак, вы узнаете, как рассчитать коэффициент детерминации, как он интерпретируется, а также онлайн-калькулятор для расчета коэффициента детерминации выборки данных.

Что такое коэффициент детерминации (R в квадрате)?

Коэффициент детерминации , обозначенный как R 2 ( R в квадрате ), представляет собой статистику, которая измеряет степень соответствия регрессионной модели. Коэффициент детерминации показывает, насколько хорошо регрессионная модель соответствует набору данных, то есть указывает процент, объясняемый регрессионной моделью.

Следовательно, чем выше коэффициент детерминации, тем лучше регрессионная модель. Хотя это условие не всегда выполняется, в принципе мы заинтересованы в как можно большем коэффициенте детерминации. Ниже мы увидим, как интерпретировать коэффициент детерминации.

Формула определяющего коэффициента

Коэффициент детерминации равен единице минус отношение остаточной дисперсии к дисперсии зависимой переменной. Коэффициент детерминации также можно рассчитать путем вычитания единицы минус сумма квадратов из остатков от общей суммы квадратов.

Таким образом, формула расчета коэффициента детерминации выглядит следующим образом:

формула коэффициента детерминации, формула r квадрата

Золото:

  • R^2

    – коэффициент детерминации.

  • \sigma_r^2

    является остаточной дисперсией.

  • \sigma^2

    — дисперсия зависимой переменной Y.

  • y_{i}

    — значение переменной, зависимой от наблюдения i.

  • \widehat{y}_{i}

    — значение, аппроксимированное регрессионной моделью для наблюдения i.

  • \overline{y}

    — среднее значение зависимой переменной по всем наблюдениям.

👉 Вы можете использовать калькулятор ниже, чтобы рассчитать коэффициент детерминации для любого набора данных.

Для случая модели линейной регрессии коэффициент детерминации эквивалентен квадрату коэффициента корреляции :

R^2=\cfrac{\sigma_{XY}^2}{\sigma_X^2\sigma_Y^2}=\rho^2

Золото

\sigma_{XY}^2

ковариация переменных X и Y,

\sigma_X^2

И

\sigma_Y^2

являются дисперсиями независимой переменной X и зависимой переменной Y соответственно.

Калькулятор коэффициента детерминации

Вставьте образец данных в калькулятор ниже, чтобы подогнать его под простую модель линейной регрессии, и рассчитайте ее коэффициент детерминации. Вам необходимо разделить пары данных так, чтобы в первом поле были только значения независимой переменной X, а во втором поле — только значения зависимой переменной Y.

Данные должны быть разделены пробелом и введены с использованием точки в качестве десятичного разделителя.

  • Независимая переменная

  • Зависимая переменная Y:

Интерпретация коэффициента детерминации

В этом разделе мы увидим, как интерпретировать коэффициент детерминации, потому что нет смысла знать значение коэффициента детерминации, если вы не знаете, что оно означает позже.

Значение коэффициента детерминации может варьироваться от 0 до 1, однако обычно оно выражается в процентах, поэтому минимум составляет 0%, а максимум — 100%.

Что касается интерпретации коэффициента детерминации , то чем выше его значение, тем лучше регрессионная модель объясняет выборку данных. Таким образом, чем ближе коэффициент детерминации к 1, тем более корректной будет модель. С другой стороны, чем ближе он к 0, тем менее надежной будет построенная регрессионная модель.

Однако при сравнении двух регрессионных моделей модель с более высоким коэффициентом регрессии не всегда оказывается лучше. Например, регрессионная модель может иметь коэффициент регрессии R 2 = 100%, поскольку в модель добавлено множество объясняющих переменных и, следовательно, она может прекрасно объяснить все наблюдения. Но эта модель, безусловно, дает очень плохой прогноз для нового значения, которое не использовалось для построения модели регрессии.

Следует также иметь в виду, что полученная регрессионная модель соответствует предыдущим предположениям. Таким образом, модель с очень высоким коэффициентом детерминации бесполезна, если изменчивость ее остатков не является постоянной (гомоскедастичность).

Более того, коэффициент детерминации представляет собой важное ограничение, поскольку он не наказывает за включение объясняющих переменных. Логично, что чем больше объясняющих переменных имеет регрессионная модель, тем она сложнее, но тем лучше она объясняет наблюдаемые данные и, следовательно, тем выше коэффициент детерминации. Однако скорректированный коэффициент детерминации учитывает количество переменных в модели (как он рассчитывается, мы увидим ниже).

В заключение отметим, что коэффициент детерминации очень полезен для анализа регрессионной модели, поскольку позволяет нам узнать, насколько хорошо регрессионная модель соответствует набору данных. Однако для анализа полученной модели следует использовать и другие инструменты, например статистические графики .

Скорректированный коэффициент детерминации

Скорректированный коэффициент детерминации , также называемый скорректированным коэффициентом детерминации , измеряет степень соответствия регрессионной модели, принимая во внимание количество объясняющих переменных, включенных в модель.

Разница между коэффициентом детерминации и скорректированным коэффициентом детерминации состоит в том, что коэффициент детерминации измеряет качество корректировки без учета количества переменных, с другой стороны, скорректированный коэффициент детерминации измеряет качество корректировки. штрафование за каждую добавленную переменную.

Формула расчета скорректированного коэффициента детерминации выглядит следующим образом:

\bar{R}^2=1-\cfrac{N-1}{N-k-1}\cdot (1-R^2)

Золото:

  • \bar{R}^2

    – скорректированный коэффициент детерминации.

  • R^2

    – коэффициент детерминации.

  • N

    это размер выборки.

  • k

    — количество объясняющих переменных в регрессионной модели.

Следовательно, скорректированный коэффициент детерминации лучше, чем коэффициент детерминации для сравнения двух разных моделей, поскольку модели могут иметь разное количество объясняющих переменных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *