残差/レバレッジ チャートとは何ですか? (定義&例)
残差とてこ比のプロットは、回帰モデルで影響力のある観測値を特定できる診断チャートの一種です。
このタイプのプロットが統計プログラミング言語 R でどのように表示されるかを次に示します。
データセット内の各観測値は、プロット内の単一の点として表示されます。 X 軸は各ポイントのてこ比を示し、Y 軸は各ポイントの標準化された残差を示します。
レバレッジとは、特定の観測値がデータセットから削除された場合に回帰モデルの係数がどの程度変化するかを指します。
てこ比が高い観測値は、回帰モデルの係数に強い影響を与えます。これらの観測値を削除すると、モデルの係数が大幅に変化します。
標準化残差とは、観測値の予測値と観測値の実際の値との間の標準化された差を指します。
観測値の標準化残差の絶対値は高くても、てこ比の値は低い場合があることに注意してください。
残差対レバレッジのグラフを解釈する方法
このグラフ上の点がクック距離 (赤い点線) の外側にある場合、それは影響力のある観測値とみなされます。
前に示した残差とレバレッジのグラフを参照してください。
上の例では、観測 #10 がクック距離制限に最も近いですが、点線の外には出ていないことがわかります。これは、回帰モデルに影響を与えるポイントがないことを意味します。
ただし、次の残差/レバレッジ グラフがあるとします。
右上隅の観測 #1 が赤い点線の外側にあることがわかります。これは、それが影響点であることを示します。
これは、この観測値をデータセットから削除し、回帰モデルを再度当てはめると、モデルの係数が大幅に変化することを意味します。
影響力のある観測結果をどのように扱うか
モデルの残差とてこ比のプロットを作成し、1 つ以上の観測値が影響力があると特定された場合は、いくつかのことを行うことができます。
1. 観察結果がエラーではないことを確認します。
何らかのアクションを起こす前に、影響力のある観測値がデータ入力エラーやその他の奇妙なイベントの結果ではないことをまず確認する必要があります。
2. 別の回帰モデルを当てはめてみます。
影響力のある観察結果は、指定したモデルがデータにうまく適合していないことを示している可能性があります。この場合、多項式回帰モデルまたは非線形モデルを試すことができます。
3. 影響力のあるコメントを削除します。
最後に、指定したモデルがデータによく適合すると思われる場合は、1 つまたは 2 つの影響力のある観測値を除いて、影響力のある観測値を単純に削除することもできます。
追加リソース
次のチュートリアルでは、残差を使用して回帰モデルの適合性を評価する方法に関する追加情報を提供します。