Google スプレッドシートで外れ値を簡単に見つける方法
外れ値とは、データセット内の他の値から異常に離れている観測値です。
多くの場合、観測値が第 3 四分位より上の四分位範囲の 1.5 倍、または第 1 四分位より下の四分位範囲の 1.5 倍である場合、その観測値は外れ値として定義されます。
注:四分位範囲は、データセットの第 3 四分位 (75 パーセンタイル) と第 1 四分位 (25 パーセンタイル) の差です。値の平均 50% の分布を測定します。
次のステップバイステップの例は、この数式を使用して Google スプレッドシートのデータセット内の外れ値を見つける方法を示しています。
ステップ 1: データを入力する
まず、次のデータセットの値を Google スプレッドシートに入力してみましょう。
ステップ 2: 四分位範囲を計算する
次に、データセットの第 1 四分位、第 3 四分位、および四分位間の範囲を計算しましょう。
ステップ 3: 外れ値を特定する
次に、次の式を使用して、データセット内の外れ値に「1」を割り当てることができます。
= IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )
この式は、観測値が第 3 四分位より上の四分位範囲の 1.5 倍であるか、または最初の四分位より下の四分位範囲の 1.5 倍であるかを確認します。
いずれかが true の場合、その観測値には「1」が割り当てられ、外れ値として指定されます。
次のスクリーンショットは、この式を実際に使用する方法を示しています。
データセット内の 1 つの値のみが外れ値であることがわかります: 164 。
外れ値を処理する方法
データに外れ値が存在する場合、いくつかのオプションがあります。
1. 外れ値がデータ入力エラーの結果ではないことを確認します。
単純なデータが正しく保存されない場合があります。外れ値が存在する場合は、まず値が正しく入力されていること、およびそれがエラーではないことを確認してください。
2.外れ値に新しい値を割り当てます。
外れ値がデータ入力エラーの結果である場合は、データセットの平均や中央値などの新しい値を割り当てることを決定できます。
3. 外れ値を削除します。
値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。最終レポートでは、外れ値を削除したことを必ず明記してください。
追加リソース
次のチュートリアルでは、他の統計ソフトウェアで外れ値を削除する方法について説明します。