外れ値は平均値にどのような影響を与えるのでしょうか?
統計では、一連のデータの平均が平均値です。これは、データセットの「中心」がどこにあるのかを知ることができるため、知っておくと便利です。これは、次の簡単な式を使用して計算されます。
平均= (観測値の合計) / (観測値の数)
たとえば、次のデータセットがあるとします。
[1、4、5、6、7]
データセットの平均は (1+4+5+6+7) / (5) = 4.6です。
ただし、平均は便利で計算が簡単ですが、外れ値の影響を受ける可能性があるという欠点があります。特に、データセットが小さいほど、外れ値が平均に与える影響は大きくなります。
これを説明するために、次の典型的な例を考えてみましょう。
10人の男性がバーに座っています。 10 人の男性の平均収入は 50,000 ドルです。突然男が出てきてビル・ゲイツが入ってくる。現在、バーにいる 10 人の男性の平均収入は 4,000 万ドルです。
この例は、外れ値 (ビル・ゲイツ) が平均にどのように大きな影響を与えるかを示しています。
小さい外れ値と大きい外れ値
外れ値は、異常に小さいか異常に大きいため、平均に影響を与える可能性があります。前の例では、ビル・ゲイツの収入が異常に高かったため、平均値が誤解を招きました。
ただし、異常に低い値も平均に影響を与える可能性があります。これを説明するために、次の例を考えてみましょう。
10 人の学生が試験を受け、次の成績を取得します。
[0、88、90、92、94、95、95、96、97、99]
平均スコアは84.6です。
ただし、データセットからスコア「0」を削除すると、平均スコアは94になります。
生徒のスコアが異常に低いと、データセット全体の平均が低くなります。
サンプルサイズと外れ値
データセットのサンプルサイズが小さいほど、外れ値が平均に影響を与える可能性が高くなります。
たとえば、0 点をとった 1 人の生徒を除いて、すべての生徒が少なくとも 90 点以上を獲得した 100 件の試験得点のデータセットがあるとします。
[ 0 、 90、 90、 92、 94、 95、 95、 96、 97、 99、 94、 90、 90、 92、 94、 95、 95、 96、 97、 99、 93、 90、 90、 92、 94 、95、95、96、97、99、93、90、90、92、94、95、95、96、97、99、93、90、90、92、94、95、95、96、97、99 、93、90、90、92、94、95、95、96、97、99、93、90、90、92、94、95、95、96、97、99、93、90、90、92、94 、95、95、96、97、99、93、90、90、92、94、95、95、96、97、99、93、90、90、92、94、95、95、96、97、99 】
平均は93.18であることがわかります。データセットから「0」を削除すると、平均は94.12になります。これは比較的小さな違いです。これは、データセットが十分に大きい場合、極端な外れ値であっても影響は最小限にとどまることを示しています。
外れ値を処理する方法
データセットに外れ値があるのではないかと心配な場合は、いくつかのオプションがあります。
- 外れ値がデータ入力エラーの結果ではないことを確認してください。データを保存するときに、単純に間違ったデータ値を入力してしまうことがあります。外れ値が存在する場合は、まず値が正しく入力されていること、およびそれがエラーではないことを確認してください。
- 外れ値に新しい値を割り当てます。外れ値がデータ入力エラーの結果であることが判明した場合は、データ セットの平均や中央値などの新しい値を割り当てることができます。
- 外れ値を削除します。値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。最終レポートまたは分析では、外れ値を削除したことを必ず明記してください。
中央値を使用する
データ セットの「中心」を見つけるもう 1 つの方法は、データ セット内のすべての個々の値を最小から最大の順に並べて中央値を見つけることによって取得される中央値を使用することです。
この計算方法により、中央値は外れ値の影響が少なく、外れ値がある場合でも分布の中心位置をより正確に把握できます。
たとえば、特定の地域の住宅の面積を示す次のグラフについて考えてみましょう。
平均値は少数の非常に大きな住宅に大きく影響されますが、中央値は影響を受けません。したがって、中央値は、平均値よりも、その近隣の住宅の「典型的な」平方フィートをうまく捉えています。
参考文献: