修正された z スコアとは何ですか? (定義&例)
統計では、 Z スコアは、値が平均からどれだけ標準偏差があるかを示します。次の式を使用して Z スコアを計算します。
Z スコア = (x i – μ) / σ
金:
- x i :単一のデータ値
- μ:データセットの平均
- σ:データセットの標準偏差
Z スコアは、データ セット内の外れ値を検出するためによく使用されます。たとえば、Z スコアが -3 未満または 3 を超える観測値は、外れ値とみなされます。
ただし、Z スコアは、異常に大きいまたは小さいデータ値の影響を受ける可能性があります。このため、外れ値を検出するためのより堅牢な方法は、次のように計算される変更された Z スコアを使用することです。
修正された Z スコア = 0.6745 (x i – x̃) / MAD
金:
- x i :単一のデータ値
- x̃:データセットの中央値
- MAD:データセットの絶対偏差の中央値
変更された Z スコアは、外れ値の影響を受けることが知られている平均ではなく、中央値を使用して Z スコアを計算するため、より堅牢になります。
Iglewicz と Hoaglin は、修正された Z スコアが -3.5 未満または 3.5 を超える値を潜在的な外れ値としてラベル付けすることを推奨しています。
次の段階的な例は、特定のデータ セットの変更された Z スコアを計算する方法を示しています。
ステップ 1: データを作成する
16 個の値を含む次のデータセットがあるとします。
ステップ 2: 中央値を見つける
次に中央値を求めます。これはデータセットの中点を表し、 16であることがわかります。
ステップ 3: 各値と中央値の間の絶対差を見つける
次に、個々のデータ値と中央値との差の絶対値を求めます。たとえば、最初のデータ値と中央値の間の絶対差は次のように計算されます。
絶対差 = |6 – 16| = 10
同じ式を使用して、個々のデータ値と中央値の間の絶対差を計算できます。
ステップ 4: 絶対中央値偏差を見つける
次に、絶対中央値偏差を求めます。これは 2 番目の列の中央値であり、 8であることがわかります。
ステップ 5: 各データ値の変更された Z スコアを見つける
最後に、次の式を使用して、各データ値の修正された Z スコアを計算できます。
修正された Z スコア = 0.6745 (x i – x̃) / MAD
たとえば、最初のデータ値の変更された Z スコアは次のように計算されます。
修正された Z スコア = 0.6745*(6-16) / 8 = -0.843
データセット内の値ごとにこの式を繰り返すことができます。
データセット内の値の修正 Z スコアが -3.5 未満または 3.5 を超えていないことがわかります。そのため、このデータセット内のどの値も潜在的な外れ値としてラベル付けされていません。
外れ値を処理する方法
データセットに外れ値が存在する場合、いくつかのオプションがあります。
- 外れ値がデータ入力エラーの結果ではないことを確認してください。データを保存するときに、単純に間違ったデータ値を入力してしまうことがあります。外れ値が存在する場合は、まず値が正しく入力されていること、およびそれがエラーではないことを確認してください。
- 外れ値に新しい値を割り当てます。外れ値がデータ入力エラーの結果であることが判明した場合は、データ セットの平均や中央値などの新しい値を割り当てることができます。
- 外れ値を削除します。値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。最終レポートまたは分析では、外れ値を削除したことを必ず明記してください。