Excel で外れ値を簡単に見つける方法
外れ値とは、データセット内の他の値から異常に離れている観測値です。
外れ値は分析結果に影響を与える可能性があるため、問題となる場合があります。
Excel で次のデータ セットを使用して、外れ値を見つけるための 2 つの方法を示します。
方法 1: 四分位範囲を使用する
四分位範囲(IQR) は、データセット内の 75 パーセンタイル (Q3) と 25 パーセンタイル (Q1) の差です。値の平均 50% の分布を測定します。
観測値が第 3 四分位 (Q3) より上の四分位範囲の 1.5 倍、または第 1 四分位 (Q1) より下の四分位範囲の 1.5 倍である場合、その観測値を外れ値として定義できます。
次の図は、Excel で四分位範囲を計算する方法を示しています。
次に、上記の式を使用して、データセット内の外れ値に「1」を割り当てることができます。
このデータセットでは、1 つの値 ( 164 ) だけが外れ値であることがわかります。
方法 2: Z スコアを使用する
Z スコアは、指定された値が平均からどれだけ標準偏差があるかを示します。次の式を使用して Z スコアを計算します。
z = (X – μ) / σ
金:
- X は単一の生データ値です
- μ は母平均です
- σ は母集団の標準偏差です
観測値の Z スコアが -3 未満または 3 を超える場合、その観測値を外れ値として定義できます。
次の図は、Excel でデータセットの平均と標準偏差を計算する方法を示しています。
次に、平均と標準偏差を使用して、データセット内の個々の値の Z スコアを見つけることができます。
次に、Z スコアが -3 未満または 3 より大きい値に「1」を割り当てることができます。
この方法を使用すると、データセットに外れ値がないことがわかります。
注:場合によっては、3 の代わりに 2.5 の Z スコアが使用されます。この場合、個々の値164は、Z スコアが 2.5 より大きいため、外れ値とみなされます。
Z スコア法を使用する場合は、どの Z スコア値を外れ値とみなすかを判断してください。
外れ値を処理する方法
データに外れ値が存在する場合、いくつかのオプションがあります。
1. 外れ値がデータ入力エラーの結果ではないことを確認します。
データを保存するときに、単純に間違ったデータ値を入力してしまうことがあります。外れ値が存在する場合は、まず値が正しく入力されていること、およびそれがエラーではないことを確認してください。
2. 外れ値を削除します。
値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。最終レポートまたは分析では、外れ値を削除したことを必ず明記してください。
3.外れ値に新しい値を割り当てます。
外れ値がデータ入力エラーの結果である場合は、データセットの平均や中央値などの新しい値を割り当てることを決定できます。