標準化残差とは何ですか?
残差は、回帰モデルにおける観測値と予測値の差です。
次のように計算されます。
残差 = 観測値 – 予測値
観測値をプロットし、近似された回帰直線を重ね合わせると、各観測値の残差は観測値と回帰直線の間の垂直距離になります。
回帰モデルで外れ値を特定するためによく使用される残差の 1 つのタイプは、標準化残差と呼ばれます。
次のように計算されます。
r i = e i / s(e i ) = e i / RSE√ 1-h ii
金:
- e i : i 番目の剰余
- RSE:モデルの残差標準誤差
- h ii : i 番目の観測の立ち上がり
実際には、絶対値が 3 より大きい標準化残差を外れ値と見なすことがよくあります。
これは必ずしもこれらの観察結果をモデルから削除することを意味するわけではありませんが、少なくともこれらの観察結果をさらに研究して、データ入力エラーやその他の奇妙なイベントの結果ではないことを確認する必要があります。
注:標準化された残基は、「社内で研究された残基」と呼ばれることもあります。
例: 標準化残差の計算方法
合計 12 個の観測値を含む次のデータセットがあるとします。
統計ソフトウェア ( R 、 Excel 、 Python 、 Stataなど) を使用して線形回帰直線をこのデータセットに当てはめると、最適な直線は次のようになります。
y = 29.63 + 0.7553x
この線を使用すると、X の値に基づいて各 Y 値の予測値を計算できます。たとえば、最初の観測値の予測値は次のようになります。
y = 29.63 + 0.7553*(8) = 35.67
この観測値の残差を次のように計算できます。
残差 = 実測値 – 予測値 = 41 – 35.67 = 5.33
このプロセスを繰り返して、各観測値の残差を見つけることができます。
統計ソフトウェアを使用して、モデルの残差標準誤差が4.44であることを確認することもできます。
また、このチュートリアルの範囲を超えていますが、ソフトウェアを使用して各観測値のてこ比統計 (h ii ) を見つけることができます。
次に、次の式を使用して、各観測値の標準化残差を計算できます。
r i = e i / RSE√ 1-h ii
たとえば、最初の観測値の標準化残差は次のように計算されます。
r i = 5.33 / 4.44√ 1-0.27 = 1.404
このプロセスを繰り返して、各観測値の標準化された残差を見つけることができます。
次に、標準化残差に対する予測値の簡単な散布図を作成して、標準化残差のいずれかが絶対値しきい値 3 を超えているかどうかを視覚的に確認できます。
グラフから、標準化された残差が絶対値 3 を超えていないことがわかります。したがって、どの観測値も外れ値であるように見えません。
場合によっては、研究者が標準化残差が絶対値 2 を超える観測値を外れ値とみなす場合があることに注意してください。
取り組んでいる分野や取り組んでいる特定の問題に応じて、外れ値のしきい値として絶対値 2 を使用するか 3 を使用するかは、ユーザー次第です。
追加リソース
次のチュートリアルでは、標準化残差に関する追加情報を提供します。
統計における残差とは何ですか?
Excel で標準化残差を計算する方法
R で標準化残差を計算する方法
Python で標準化残差を計算する方法