Spss でマハラノビス距離を計算する方法
マハラノビス距離は、多変量空間内の 2 点間の距離です。複数の変数を含む統計分析で外れ値を検出するためによく使用されます。
このチュートリアルでは、SPSS でマハラノビス距離を計算する方法を説明します。
例: SPSS のマハラノビス距離
20 人の学生の試験のスコアと、学生が勉強に費やした時間数、受験した模擬試験の数、およびコースの現在の成績を表示する次のデータセットがあるとします。
次の手順を使用して、データセット内の各観測値のマハラノビス距離を計算し、多変量外れ値があるかどうかを判断できます。
ステップ 1: [線形回帰] オプションを選択します。
「分析」タブ、 「回帰」 、 「線形」の順にクリックします。
ステップ 2: マハラノビス オプションを選択します。
応答変数スコアを「Dependent」というラベルのボックスにドラッグします。他の 3 つの予測変数を「独立」というラベルのボックスにドラッグします。次に、 「保存」ボタンをクリックします。表示される新しいウィンドウで、 「マハラノビス」の横のボックスがオンになっていることを確認します。次に、 「続行」をクリックします。次に、 「OK」をクリックします。
[OK]をクリックすると、データセット内の各観測値のマハラノビス距離がMAH_1というタイトルの新しい列に表示されます。
一部の距離が他の距離よりもはるかに長いことがわかります。いずれかの距離が統計的に有意であるかどうかを判断するには、その p 値を計算する必要があります。
ステップ 3: 各マハラノビス距離の p 値を計算します。
「変換」タブをクリックし、 「変数の計算」をクリックします。
[ターゲット変数]ボックスで、作成する変数の新しい名前を選択します。私たちは「pvalue」を重視します。 [数値式]ボックスに次のように入力します。
1 – CDF.CHISQ(MAH_1, 3)
次に、 「OK」をクリックします。
これにより、3 自由度のカイ 2 乗値に対応する p 値が生成されます。回帰モデルには3 つの予測変数があるため、3 つの自由度を使用します。
ステップ 4: p 値を解釈します。
[OK]をクリックすると、各マハラノビス距離の p 値が新しい列に表示されます。
デフォルトでは、SPSS は小数点以下 2 桁の p 値のみを表示します。 SPSS の下部にある[変数の表示]をクリックし、[小数点以下の桁数] 列の数値を増やすことで、小数点以下の桁数を増やすことができます。
データ ビューに戻ると、各 p 値が小数点以下 5 桁で表示されていることがわかります。 0.001 未満のp 値は外れ値とみなされます。
最初の観測値は p 値が 0.001 未満であるため、データセット内の唯一の外れ値であることがわかります。
外れ値を処理する方法
データに外れ値が存在する場合、いくつかのオプションがあります。
1. 外れ値がデータ入力エラーの結果ではないことを確認します。
データを保存するときに、単純に間違ったデータ値を入力してしまうことがあります。外れ値が存在する場合は、まずデータ値が正しく入力されており、エラーではないことを確認してください。
2. 外れ値を削除します。
値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。最終レポートまたは分析では、外れ値を削除したことを必ず明記してください。