データをウィンザー化する方法: 定義と例
データのウィンザライズとは、データの指定されたパーセンタイルに等しい極端な外れ値を設定することを意味します。
たとえば、90% のウィンゾリゼーションでは、95 パーセンタイルを超えるすべての観測値が95 パーセンタイルの値に等しく設定され、5 パーセンタイル未満のすべての観測値が 5 パーセンタイルの値に等しく設定されます。
実際、データのウィンザライズとは、データセットの極値をそれほど極端ではない値に変更することを意味します。
例: データをウィンザー化する方法
次のデータセットがあるとします。
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
このデータセットに対して 90% のウィンザー化を実行するには、まず 5 パーセンタイルと 95 パーセンタイルを見つけます。これらは次のようになります。
- 5 パーセンタイル: 12.35
- 95 パーセンタイル: 92.05
次に、12.35 未満のすべての値を 12.35 に等しく設定し、92.05 を超えるすべての値を 92.05 に等しく設定します。
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
この場合、値3は12.35になり、値98 は92.05になりました。
データをウィンザライズする理由
平均と標準偏差は、それぞれデータ セットの中心の位置とデータ セット内の観測値の分布を測定するための 2 つの一般的な方法です。
ただし、これら 2 つの測定値はどちらも極端な外れ値の影響を受ける可能性があります。したがって、データをウィンザー化することで、それほど極端ではない値と等しい極端な外れ値を定義できるようになります。
これにより、多くの場合、データセットの平均と標準偏差をより正確に把握できるようになります。
プラムゴールドウィンゾリゼ
外れ値に対処するもう 1 つの一般的な方法は、外れ値をデータセットから削除することです。これは、外れ値を完全に削除することを意味します。
たとえば、前のデータセットを考えてみましょう。
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
5 パーセンタイル未満または 95 パーセンタイルを超える値を削減したい場合は、値3と98を単純に削除します。
スライスまたはウィンゾリゼーションをいつ使用するかについての経験則をいくつか示します。
トリミング:一部の値が完全に不合理であると思われる場合、つまりデータ入力エラーの結果である場合、データ値をトリミングすることは理にかなっています。
ウィンザー化:極端な観測結果を保持したいが、あまり文字通りに受け取りたくない場合、データをウィンザー化することは理にかなっています。
データのウィンザー化に関する注意事項
データを取得することを決定する際に留意すべき点がいくつかあります。
1.極端な外れ値がない場合、データをウィンザー化しても最小値と最大値はわずかに変化するだけです。これは、単にデータ値を変更することだけを目的としてデータ値を変更していることを意味するため、一般的には良い考えではありません。
2.外れ値は、データ内の興味深いエッジケースを表す可能性があります。したがって、外れ値を編集する前に、外れ値を詳しく調べて、その原因を確認することをお勧めします。
3.データをウィンザー化するかどうかは、データ収集前ではなく、データ収集後に決定する必要があります。ウィンザー化を決定する前に、実際に極端な外れ値があるかどうかを確認する必要があります。極端な外れ値が存在しない場合、ウィンザライゼーションは不要な場合があります。
チュートリアル: Excel でデータをウィンザライズする
Excel でデータ セットをウィンザー化する方法の段階的な例については、 このチュートリアルを参照してください。