Что такое хорошее значение r-квадрата?
R-квадрат измеряет, насколько хорошо модель линейной регрессии «соответствует» набору данных. R-квадрат, также обычно называемый коэффициентом детерминации , представляет собой долю дисперсии переменной отклика, которую можно объяснить с помощью предикторной переменной.
Значение R-квадрата может находиться в диапазоне от 0 до 1. Значение 0 указывает на то, что переменная ответа вообще не может быть объяснена переменной-предиктором. Значение 1 указывает на то, что переменная ответа может быть полностью без ошибок объяснена переменной-предиктором.
На практике вы, вероятно, никогда не увидите значения 0 или 1 для R-квадрата. Вместо этого вы, скорее всего, встретите значение от 0 до 1.
Например, предположим, что у вас есть набор данных, содержащий численность населения и количество флористов в 30 разных городах. Вы подгоняете простую модель линейной регрессии к набору данных, используя размер населения в качестве предикторной переменной, а флористов в качестве переменной ответа. В результате результатов регрессии вы видите, что R 2 = 0,2. Это указывает на то, что 20% вариаций количества флористов можно объяснить численностью населения.
Это подводит нас к важному вопросу: является ли это «хорошим» значением для R-квадрата?
Ответ на этот вопрос зависит от вашей цели в отношении регрессионной модели. Знать:
1. Хотите ли вы объяснить связь между предиктором(ами) и переменной отклика?
ЗОЛОТО
2. Хотите спрогнозировать переменную ответа?
В зависимости от цели ответ на вопрос «Каково хорошее значение R в квадрате?» » будет другим.
Объясните взаимосвязь между предиктором(ами) и переменной отклика.
Если ваша основная цель вашей регрессионной модели — объяснить взаимосвязь между предикторами и переменной отклика, R-квадрат практически не имеет значения.
Например, предположим, что в приведенном выше примере регрессии вы видите, что коэффициент прогнозирования размера популяции равен 0,005 и является статистически значимым. Это означает, что увеличение численности населения на одного человека связано со средним увеличением числа цветочных магазинов в данном городе на 0,005. Кроме того, численность населения является статистически значимым показателем количества флористов в городе.
Независимо от того, равно ли значение R-квадрата этой регрессионной модели 0,2 или 0,9, эта интерпретация не меняется. Поскольку вас просто интересует взаимосвязь между размером населения и количеством флористов, вам не нужно слишком беспокоиться о значении R-квадрата модели.
Спрогнозируйте переменную ответа
Если ваша основная цель — точно предсказать значение переменной отклика с помощью переменной-предиктора, тогда важен R-квадрат.
В общем, чем больше значение R-квадрата, тем точнее переменные-предикторы способны предсказать значение переменной отклика.
Требуемое значение R-квадрата зависит от необходимой вам точности. Например, в научных исследованиях может потребоваться, чтобы R-квадрат был больше 0,95, чтобы модель регрессии считалась надежной. В других областях R-квадрат всего 0,3 может быть достаточным, если набор данных сильно варьируется.
Чтобы узнать, что считается «хорошим» значением R-квадрата, вам необходимо изучить, какие значения R-квадрата общеприняты в вашей конкретной области обучения. Если вы выполняете регрессионный анализ для клиента или компании, вы можете спросить их, какое значение R-квадрата считается приемлемым.
Интервалы прогнозирования
Интервал прогнозирования определяет диапазон, в который может попасть новое наблюдение, на основе значений переменных-предикторов. Более узкие интервалы прогнозирования указывают на то, что переменные-предикторы могут более точно предсказать переменную ответа.
Часто интервал прогнозирования может быть более полезным, чем значение R-квадрата, поскольку он дает вам точный диапазон значений, в который может попасть новое наблюдение. Это особенно полезно, если ваша основная цель регрессии — предсказать новые значения переменной ответа.
Например, предположим, что население в 40 000 человек дает интервал прогноза от 30 до 35 флористов в конкретном городе. Это может считаться или не считаться приемлемым диапазоном значений, в зависимости от использования регрессионной модели.
Заключение
В общем, чем больше значение R-квадрата, тем точнее переменные-предикторы способны предсказать значение переменной отклика.
Насколько хорошим должно быть значение R-квадрата, чтобы считаться «хорошим», зависит от предметной области. Некоторые поля требуют более высокой точности, чем другие.
Чтобы узнать, что считается «хорошим» значением R-квадрата, подумайте, что общепринято в области, в которой вы работаете, спросите кого-нибудь, обладающего конкретными знаниями в конкретной области, или спросите клиента/клиента. компания, для которой вы проводите регрессионный анализ. за то, что они считают приемлемым.
Если вы хотите объяснить взаимосвязь между предиктором и переменной ответа, R-квадрат в значительной степени не имеет значения, поскольку он не влияет на интерпретацию модели регрессии.
Если вы хотите спрогнозировать переменную ответа, интервалы прогнозирования обычно более полезны, чем значения R-квадрата.
Дальнейшее чтение:
Коэффициент корреляции Пирсона
Введение в простую линейную регрессию