回帰分析で残差を計算する方法
単純線形回帰は、 2 つの変数 x と y の間の関係を理解するために使用できる統計手法です。
変数xは、予測子変数として知られています。もう 1 つの変数yは、応答変数として知られています。
たとえば、7 人の個人の体重と身長を含む次のデータセットがあるとします。
体重を予測変数、身長を応答変数としましょう。
これら 2 つの変数を散布図を使用して、X 軸に体重、Y 軸に身長をとってグラフ化すると、次のようになります。
散布図から、体重が増加すると身長も増加する傾向があることがはっきりとわかりますが、この体重と身長の関係を実際に定量化するには、線形回帰を使用する必要があります。
線形回帰を使用すると、データに最もよく「適合」する直線を見つけることができます。
この最適な直線の式は次のように記述されます。
ŷ = b 0 + b 1 x
ここで、ŷ は応答変数の予測値、b 0は切片、b 1は回帰係数、x は予測変数の値です。
この例では、最も適合する行は次のとおりです。
サイズ = 32.783 + 0.2001*(重量)
残差の計算方法
散布図のデータ ポイントは、常に最適な線に正確に対応するとは限らないことに注意してください。
データ点と線の間のこの差は残差と呼ばれます。各データ ポイントについて、その真の値と最良適合ラインからの予測値の差を取ることによって、そのポイントの残差を計算できます。
例 1: 残差の計算
たとえば、データセット内の 7 人の個人の体重と身長を思い出してください。
最初の個体の体重は140ポンドです。そして高さは60インチです。
この個人の予想身長を調べるには、体重を最適式の直線に代入します。
サイズ = 32.783 + 0.2001*(重量)
したがって、この個体の予測サイズは次のようになります。
高さ = 32.783 + 0.2001*(140)
高さ = 60.797 インチ
したがって、このデータ ポイントの残差は 60 – 60.797 = -0.797となります。
例 2: 残差の計算
上記で使用したのとまったく同じプロセスを使用して、各データ ポイントの残差を計算できます。たとえば、データセット内の 2 番目の個人の残差を計算してみましょう。
2番目の個体の体重は155ポンドです。そして高さは62インチです。
この個人の予想身長を調べるには、体重を最適式の直線に代入します。
サイズ = 32.783 + 0.2001*(重量)
したがって、この個体の予測サイズは次のようになります。
高さ = 32.783 + 0.2001*(155)
高さ = 63.7985 インチ
したがって、このデータ ポイントの残差は 62 – 63.7985 = -1.7985となります。
すべての残差を計算する
前の 2 つの例と同じ方法を使用して、各データ ポイントの残差を計算できます。
一部の残差は正であり、その他は負であることに注意してください。すべての残差を合計すると、合計はゼロになります。
これは、線形回帰では残差の二乗の合計を最小にする直線が見つかるためです。そのため、この直線はデータを完全に通過し、一部のデータ ポイントは直線の上にあり、他のデータ ポイントは直線の下にあります。
残基を表示する
残差は、単にデータの実際の値と、最適回帰直線によって予測された値との間の距離であることに注意してください。これらの距離が点群上で視覚的にどのように見えるかは次のとおりです。
一部の残差が他の残差よりも大きいことに注意してください。さらに、前述したように、一部の残差は正であり、一部は負です。
残りのパスの作成
残差を計算するポイントは、回帰直線がデータにどの程度適合しているかを確認することです。
残差が大きいほど、回帰直線がデータにうまく適合していないこと、つまり、実際のデータ ポイントが回帰直線に近似していないことを示します。
残差が小さいほど、回帰直線がデータによりよく適合していること、つまり、実際のデータ ポイントが回帰直線に近いことを示します。
すべての残差を一度に視覚化するのに便利なタイプのプロットは、残差プロットです。残差プロットは、回帰モデルの予測値と残差を表示するプロットの一種です。
このタイプのプロットは、線形回帰モデルが特定のデータセットに適切であるかどうかを評価し、残差の不均一分散性をチェックするためによく使用されます。
Excel で単純な線形回帰モデルの残差プロットを作成する方法については、 このチュートリアルをご覧ください。