調整済み r2 乗を解釈する方法 (例付き)


線形回帰モデルを近似するとき、多くの場合、モデルのR 二乗値を計算します。

R 二乗値は、モデル内の予測変数によって説明できる応答変数の分散の割合です。

R 二乗の値は 0 から 1 まで変化します。ここで、

  • 0は、応答変数が予測変数によってまったく説明できないことを示します。
  • 1は、応答変数が予測変数によって完全に説明できることを示します。

このメトリクスは回帰モデルがデータセットにどの程度適合しているかを評価するためによく使用されますが、次のような重大な欠点があります。

R2 乗の欠点:

新しい予測変数が回帰モデルに追加されると、R 二乗は常に増加します。

新しい予測変数が応答変数とほとんど関係がない場合でも、モデルの R 二乗値は、たとえ少量であっても増加します。

このため、多数の予測子変数を含む回帰モデルは、モデルがデータにうまく適合していない場合でも、高い R 二乗値を持つ可能性があります。

幸いなことに、調整済み R-2 乗と呼ばれる R-2 乗の代替手段があります。

調整済み R 二乗は、回帰モデル内の予測子の数を調整する R 二乗の修正バージョンです。

次のように計算されます。

調整済み R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

金:

  • R2 : モデルのR2
  • n : 観測値の数
  • k : 予測子変数の数

R 二乗はモデルに予測子を追加すると常に増加するため、調整された R 二乗は、モデル内の予測子の数を調整してモデルがどれほど有用であるかを知ることができます。

調整された R2 乗の利点:

調整された R 二乗は、モデル内の予測子の数に合わせて調整された、一連の予測子変数が応答変数の変動をどの程度説明できるかを示します。

計算方法により、調整済み R 二乗を使用して、異なる数の予測子変数と回帰モデルの適合を比較できます。

調整された R 二乗をよりよく理解するには、次の例を参照してください。

例: 回帰モデルにおける調整済み R 二乗の理解

教授がクラスの生徒に関するデータを収集し、次の回帰モデルを当てはめて、授業に費やした時間と現在の成績が生徒の期末試験での成績にどのような影響を与えるかを理解するとします。

試験の得点 = β 0 + β 1 (勉強に費やした時間) + β 2 (現在の成績)

この回帰モデルには次のメトリクスがあると仮定します。

  • R二乗: 0.955
  • 調整済み R2 乗: 0.946

ここで、教師が各生徒の別の変数、つまり靴のサイズに関するデータを収集することにしたとします。

この変数は最終試験の成績とは関係がないはずですが、次の回帰モデルを適用することにしました。

試験の得点 = β 0 + β 1 (勉強にかかった時間) + β 2 (今年度) + β 3 (靴のサイズ)

この回帰モデルには次のメトリクスがあると仮定します。

  • R二乗: 0.965
  • 調整済み R2 乗: 0.902

これら 2 つの回帰モデルのそれぞれのR 二乗値だけを見ると、2 番目のモデルの方が R 二乗値が高いため、使用する方が良いと結論付けるでしょう。

ただし、調整された R 二乗値を見ると、別の結論に達します。調整された R 二乗値がより高いため、最初のモデルを使用する方が良いということです。

2 番目のモデルは、最初のモデルよりも多くの予測子変数を持っているため、R 二乗値が高いだけです。

ただし、追加した予測変数 (靴のサイズ) は最終試験のスコアの予測変数としては不十分であったため、調整された R 二乗値により、この予測変数を追加するモデルにペナルティが課されました。

この例は、異なる数の予測子変数を使用して回帰モデルの適合を比較するときに、調整済み R2 乗が使用するメトリックとして適している理由を示しています。

追加リソース

次のチュートリアルでは、さまざまな統計ソフトウェアを使用して調整された R 二乗値を計算する方法を説明します。

R の調整済み R 二乗を計算する方法
Excel で調整済み R 二乗を計算する方法
Python で調整済み R 二乗を計算する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です