回帰の標準誤差を理解する
回帰モデルをデータセットに適合させるとき、多くの場合、回帰モデルがデータセットにどの程度「適合」するかに関心があります。適合度を測定するために一般的に使用される 2 つの指標には、R 二乗( R2 ) と回帰の標準誤差(多くの場合Sで表されます) が含まれます。
このチュートリアルでは、回帰の標準誤差 (S) を解釈する方法と、それが R 2よりも有用な情報を提供できる理由について説明します。
回帰における標準誤差と R2 乗
12 人の学生が重要な試験までの 1 か月間、1 日に勉強した時間と試験の得点を示す単純なデータセットがあるとします。
Excel で単純な線形回帰モデルをこのデータセットに当てはめると、次の結果が得られます。
R 二乗は、予測変数によって説明できる応答変数の分散の割合です。この場合、試験の得点のばらつきの65.76%は、勉強に費やした時間数によって説明できます。
回帰の標準誤差は、観測値と回帰直線の間の平均距離です。この場合、観測値は回帰直線から平均して 4.89 単位外れます。
実際のデータ ポイントを回帰直線でプロットすると、これがより明確にわかります。
一部の観測値は回帰直線に非常に近いところにありますが、他の観測値は回帰直線に近いことに注意してください。しかし、平均すると、観察された値は回帰直線から4.19 単位外れます。
回帰の標準誤差は、予測の精度を評価するために使用できるため、特に便利です。観測値の約 95% は回帰の +/- 2 標準誤差以内に収まるはずで、これは 95% の予測区間の簡単な近似値です。
回帰モデルを使用して予測を行う場合、回帰の標準誤差は、単位に関して予測がどの程度正確であるかを知ることができるため、R 二乗よりも知っておくと便利な尺度になる可能性があります。
回帰の標準誤差がモデルの「適合度」を評価するためのより有用な尺度である理由を説明するために、12 人の学生が重要な試験前の 1 か月間、1 日あたり何時間勉強したかを示す別のデータセットの例を考えてみましょう。彼らの試験結果:
これは、すべての s 値が半分になることを除いて、前とまったく同じデータセットであることに注意してください。したがって、このデータセットの学生は、前のデータセットの学生のちょうど半分の時間勉強し、ちょうど半分の試験成績を獲得しました。
Excel で単純な線形回帰モデルをこのデータセットに当てはめると、次の結果が得られます。
R 2 乗の65.76% は前の例とまったく同じであることに注意してください。
ただし、回帰の標準誤差は2.095で、前の例の回帰の標準誤差のちょうど半分です。
実際のデータ ポイントを回帰直線でプロットすると、これがより明確にわかります。
観測値が回帰直線の周囲にさらに密に集まっていることに注目してください。平均して、観測値は回帰直線から2,095 単位の位置にあります。
したがって、両方の回帰モデルの R 二乗値は65.76%ですが、2 番目のモデルの方が回帰標準誤差が低いため、より正確な予測が得られることがわかります。
標準誤差を使用する利点
回帰の標準誤差 (S) は、実際の単位を与えるため、モデルの R 二乗よりも知っておくと便利です。回帰モデルを使用して予測を生成したい場合、S はモデルが予測目的で使用できるほど正確であるかどうかを非常に簡単に教えてくれます。
たとえば、試験の得点を実際の得点から 6 点以内で予測できる 95% の予測区間を生成したいとします。
最初のモデルの R 二乗は 65.76% ですが、これでは予測区間の精度については何もわかりません。幸いなことに、最初のモデルの S が 4.19 であることもわかっています。これは、95% の予測間隔が約 2*4.19 = +/- 8.38 単位の幅になることを意味します。これは、予測間隔には広すぎます。
2 番目のモデルも R2 乗値は 65.76% ですが、これも予測区間の精度については何もわかりません。ただし、2 番目のモデルの S は 2.095 であることがわかっています。これは、95% の予測間隔が約 2*2.095 = +/- 4.19 単位の幅になることを意味します。これは 6 未満であり、予測間隔の生成に使用できるほど正確です。
参考文献