Spss で外れ値を特定する方法


外れ値とは、データセット内の他の値から異常に離れている観測値です。外れ値は分析結果に影響を与える可能性があるため、問題となる場合があります。

このチュートリアルでは、SPSS で外れ値を特定して処理する方法を説明します。

SPSS で外れ値を特定する方法

15 人の年収 (千単位) を示す次のデータセットがあるとします。

外れ値が存在するかどうかを判断する 1 つの方法は、データ セットの箱ひげ図を作成することです。これを行うには、 「分析」タブ、 「記述統計」「探索」の順にクリックします。

表示される新しいウィンドウで、変数収入を「扶養家族のリスト」というラベルのボックスにドラッグします。次に、 [統計]をクリックし、 [パーセンタイル] の横のボックスがオンになっていることを確認します。次に、 「続行」をクリックします。次に、 「OK」をクリックします。

[OK]をクリックすると、箱ひげ図が表示されます。

SPSS の箱ひげ図

箱ひげ図の両端に円やアスタリスクがない場合は、外れ値が存在しないことを示します。

SPSS は、データ値が次の範囲外にある場合、外れ値と見なします。

  • 第 3 四分位 + 1.5*四分位範囲
  • 第 1 四分位 – 1.5*四分位範囲

結果のTukey Hinges というラベルの付いた行の 75 パーセンタイルと 25 パーセンタイルの差を取ることで、四分位範囲を計算できます。

SPSS における Tukey ヒンジの四分位範囲

このデータセットの四分位範囲は 82 – 36 = 46です。したがって、次の範囲外の値は外れ値とみなされます。

  • 82 + 1.5*46 = 151
  • 36 – 1.5*46 = -33

明らかに、収入をマイナスにすることはできないため、この例の下限は役に立ちません。ただし、151 を超える収入は外れ値とみなされます。

たとえば、データセット内の最大値が 152 であるとします。そのデータセットの箱ひげ図は次のとおりです。

SPSS での外れ値を含む箱ひげ図

円は、データに外れ値が存在することを示します。数字 15 は、データセット内のどの観測値が外れ値であるかを示します。

SPSS は、データ値が次の範囲外にある場合にも、その値を極端な外れ値とみなします。

  • 第 3 四分位 + 3*四分位間範囲
  • 第 1 四分位 – 3*四分位範囲

したがって、次の範囲外の値は、この例では極端な外れ値とみなされます。

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

たとえば、データセット内の最大値が 221 であるとします。このデータセットの箱ひげ図は次のとおりです。

SPSS の箱ひげ図の極端な外れ値

アスタリスク (*) は、データに極端な外れ値が存在することを示します。数字 15 は、データセット内のどの観測値が極端な外れ値であるかを示します。

外れ値を処理する方法

データに外れ値が存在する場合、いくつかのオプションがあります。

1. 外れ値がデータ入力エラーの結果ではないことを確認します。

データを保存するときに、単純に間違ったデータ値を入力してしまうことがあります。外れ値が存在する場合は、まず値が正しく入力されていること、およびそれがエラーではないことを確認してください。

2. 外れ値を削除します。

値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。最終レポートまたは分析では、外れ値を削除したことを必ず明記してください。

3.外れ値に新しい値を割り当てます

外れ値がデータ入力エラーの結果であることが判明した場合は、データ セットの平均や中央値などの新しい値を割り当てることができます。

追加リソース

複数の変数を同時に操作している場合は、 マハラノビス距離を使用して外れ値を検出するとよいでしょう。

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です