統計に回復力があるとは何を意味するのでしょうか?
統計が極端な値に敏感でない場合、その統計は回復力があると言われます。
以下に、回復力のある統計の 2 つの例を示します。
- 中央値
- 四分位範囲
以下に、維持できない統計の例を示します。
- 平均
- 標準偏差
- きちんとした
次の例は、復元力のある統計と復元力のない統計の違いを示しています。
例: 耐性統計と非耐性統計
次のデータセットがあるとします。
データセット: 2、5、6、7、8、13、15、18、22、24、29
電卓または統計ソフトウェアを使用すると、このデータ セットの次の保持統計の値を計算できます。
- 中央値: 13
- 四分位範囲: 13.5
このデータセットの次の非回復性統計の値を計算することもできます。
- 平均: 13.54
- 標準偏差: 8.82
- 範囲: 27
ここで、このデータセットに極端な外れ値が追加されているかどうかを考えてみましょう。
データセット: 2、5、6、7、8、13、15、18、22、24、29、450
このデータセットの次の復元統計の値を再度計算できます。
- 中央値: 14
- 四分位範囲: 15.75
このデータセットの次の非回復性統計の値を計算することもできます。
- 平均: 49.92
- 標準偏差: 126.27
- 範囲: 448
データセットに極値を追加するだけで、非抵抗統計がどれだけ変化するかに注目してください。
逆に、レジスタンス戦士の統計はほとんど変わっていない。中央値と四分位範囲はわずかに変化しました。
復元力のある統計を使用する場合
データセット内の値の中心と分散を測定するために最も一般的に使用される統計は、それぞれ平均と標準偏差です。
残念ながら、これらの統計はどちらも極端な値に敏感です。したがって、データ セットに外れ値が存在する場合、平均と標準偏差はデータ セット内の値の分布を正確に表すことができません。
代わりに、外れ値が存在する場合は、中央値と四分位範囲を使用してデータセット内の値の中心と分散を測定することをお勧めします。これらの統計は両方とも堅牢であるためです。
追加リソース
外れ値は平均値にどのような影響を与えるのでしょうか?
平均と中央値をいつ使用するか
四分位範囲と標準偏差をいつ使用するか