ショーヴネ基準: 定義と例
外れ値とは、データセット内の他の値から異常に離れている観測値です。外れ値は分析結果に影響を与える可能性があるため、問題となる場合があります。
データ セット内の外れ値を特定する 1 つの方法は、次のプロセスを使用するショーヴネ基準を使用することです。
1.データセット内の個々の値 x iについて、次のように平均からの偏差を計算します。
偏差 = |x i – x | /秒
ここで、 xはサンプル平均、 sはサンプル標準偏差です。
2.個々の値の偏差を、以下のショーヴネ基準表の臨界値と比較します。表で見つかった値よりも大きな偏差を持つ個々のデータ値については、これらのデータ値を外れ値として報告します。
ショーヴネ基準: 例
次の 15 個の値のデータ セットがあるとします。
このデータセットのサンプル平均はx = 17.067 、サンプル標準偏差はs = 10.096です。個々のデータ値ごとに、その偏差を次のように計算できます。
偏差 = |x i – x | /秒
例えば:
- 最初のデータ値の偏差は |4 – 17.067| になります。 / 10,096 = 1,294 。
- 最初のデータ値の偏差は |6 – 17.067| になります。 / 10.096 = 1.096 。
等々。
同じ式を使用して、個々のデータ値の偏差を計算できます。
次に、ショーブネ基準テーブルを参照すると、サンプル サイズ n=15 に対応する臨界値が2.128であることがわかります。したがって、偏差が 2.128 を超える値は外れ値と見なすことができます。
値42の偏差は 2.128 より大きいことがわかります。
したがって、値 42 は、このデータセット内の唯一の外れ値です。
ショーヴネ基準の使用に関する注意事項
ショーブネの基準は、データセット内の値が正規分布していることを前提としています。この仮定が満たされない場合、外れ値を特定するためにショーヴネ基準を使用することはおそらく有効ではありません。
この方法を使用して値が外れ値であることが判明した場合は、まずその値がデータ入力エラーの結果ではないことを確認する必要があります。データが単に間違って入力されている場合もあります。
値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。結果を報告する際には、外れ値を削除したことを必ず明記してください。
さらに、このメソッドは特定のデータセットに対して 1 回のみ使用する必要があります。たとえば、この基準を使用して、前の例で値42 を外れ値として特定し、その値をデータセットから削除するとします。
その場合、より多くの外れ値を見つけるために標本平均と標本標準偏差を再計算したり、偏差を再計算したりする必要はありません。