統計における影響力のある観察とは何ですか?
統計学において、影響力のある観測値とは、データセット内の観測値であり、削除されると回帰モデルの係数推定値が大きく変化するものを指します。
観測値の影響を測定する最も一般的な方法は、i番目の観測値が削除されたときに回帰モデル内のすべての近似値がどの程度変化するかを定量化するクック距離を使用することです。
一般に、クック距離が 1 より大きい観測値は、レバレッジの高い観測値であると考えられます。
次の例は、特定のデータセットのクック距離を計算して解釈し、影響を与える可能性のある観測値を検出する方法を示しています。
例: 影響力のある観測値の検出
14 個の値を含む次のデータ セットがあるとします。
ここで、単純な線形回帰モデルを当てはめると仮定します。回帰結果を以下に示します。
統計ソフトウェアを使用すると、各観測値のクック距離の次の値を計算できます。
最後の観測値はクック距離の値が 1 より大幅に大きいことに注意してください。これは、それが影響力のある観測値であることを示しています。
この値をデータセットから削除し、新しい単純な線形回帰モデルを当てはめるとします。このモデルの出力を以下に示します。
切片と x の回帰係数が両方とも大幅に変化していることに注意してください。これは、データセットから影響力のある観測値を削除すると、近似回帰モデルが完全に変化したことを示しています。
次のグラフは、これら 2 つの近似回帰式の違いを示しています。
影響力のある 1 つの観測値が回帰直線をどれだけ変化させるかに注目してください。この観察を削除することで、データによりよく適合する回帰直線を見つけることができました。
コメント
潜在的に影響を与える観測値を特定するにはクック距離を使用する必要があることに注意することが重要です。ただし、観測値が影響力があるからといって、必ずしもデータセットから削除する必要があるわけではありません。
まず、観測結果がデータ入力エラーやその他の奇妙なイベントの結果ではないことを確認する必要があります。これが正当な値であることが判明した場合は、次のいずれかの方法で処理することを決定できます。
- データセットから削除します。
- データセット内に残しておきます。
- これを平均値や中央値などの代替値に置き換えます。
特定のシナリオによっては、これらのオプションの 1 つが他のオプションよりも適切な場合があります。
実際に料理人の距離を計算する方法
次のチュートリアルでは、Python と R で特定のデータセットのクック距離を計算する方法を説明します。