Excel で grubbs のテスターを実行する方法
グラブス検定は、データセット内の外れ値の存在を特定するために使用できる統計検定です。この検定を使用するには、分析しているデータ セットがほぼ正規分布している必要があり、理想的には少なくとも 7 つの観測値が含まれている必要があります。
注:データ セットに複数の外れ値があると思われる場合は、代わりに外れ値に対して一般化された極端なスチューデント ギャップ テストを使用する必要があります。
データセット内の最大値が外れ値であると思われる場合、検定統計量は次のように計算されます。
G = (x max – x ) / s
データセット内の最小値が外れ値であると思われる場合、検定統計量は次のように計算されます。
G = ( x – x分) / 秒
データセットの最大値または最小値が外れ値であるかどうか不明で、両側検定を実行したい場合は、検定統計量は次のように計算されます。
G = 最大|x i – x | /秒
ここで、 xはサンプル平均、 sはサンプル標準偏差です。
テストの臨界値は次のように計算されます。
G臨界値= (n-1)t臨界値/ √[n(n-2 + t 2臨界値)]
ここで、 tcritical は、n-2 自由度の t 分布の臨界値であり、有意水準は、片側検定の場合は α/n、両側検定の場合は α/(2n) です。
例: Excel での Grubbs テスト
値 60 が次のデータ セットの外れ値であるかどうかを判断します。
ステップ 1:まず、データがほぼ正規分布していることを確認する必要があります。これを行うには、ヒストグラムを作成して、分布がほぼ釣鐘型であることを確認します。次のスクリーンショットは、データ分析ツールを使用して Excel でヒストグラムを作成する方法を示しています。
ヒストグラムから、データがほぼ正規分布していることがわかります。これは、Grubbs テストを実行できることを意味します。
ステップ 2:次に、Grubbs テストを実行して、値 60 が本当にデータセット内の外れ値であるかどうかを判断します。以下のスクリーンショットは、Grubbs テストの実行に使用する式を示しています。
セル D4 の検定統計量G は3.603219です。
セル D11 の臨界値G Criticalは2.556581です。検定統計量が臨界値より大きいため、値 60 が実際にこのデータセットの外れ値であることを意味します。
外れ値が特定された場合の対処方法
Grubbs テストでデータ セット内の外れ値が特定された場合、いくつかのオプションがあります。
- 値にタイプミスやデータ入力エラーがないことを再確認してください。データセット内で外れ値として表示される値は、データ入力時に個人が行った単なるタイプミスである場合があります。さらに決定を下す前に、戻って値が正しく入力されたことを確認してください。
- 外れ値に新しい値を割り当てます。外れ値がタイプミスまたはデータ入力エラーの結果であることが判明した場合は、データセットの平均や中央値などの新しい値を割り当てることができます。
- 外れ値を削除します。値が本当に外れ値であり、分析全体に重大な影響を与える場合は、その値を削除することを選択できます。
外れ値をどのように扱うかに関係なく、分析の最終結論を提示するときは必ず外れ値に注意してください。