四分位範囲と標準偏差: 違いは何ですか?
四分位範囲と標準偏差は、データセット内の値の分布を測定する 2 つの方法です。
このチュートリアルでは、各メトリクスの簡単な説明と、2 つのメトリクスの類似点と相違点を説明します。
四分位範囲
データセットの四分位範囲(IQR) は、第 1 四分位 (25 パーセンタイル) と第 3 四分位 (75 パーセンタイル) の差です。値の平均 50% の分布を測定します。
IQR = 第 3 四半期 – 第 1 四半期
たとえば、次のデータセットがあるとします。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
四分位範囲計算ツールによると、このデータセットの四分位範囲 (IQR) は次のように計算されます。
- T1: 12
- T3: 26.5
- IQR = 第 3 四半期 – 第 1 四半期 = 14.5
これは、データセット内の値の中央の 50% の偏差が14.5であることを示しています。
標準偏差
データセットの標準偏差は、平均値からの個々の値の典型的な偏差を測定する方法です。次のように計算されます。
s = √(Σ(x i – x ) 2 / (n-1))
たとえば、次のデータセットがあるとします。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
計算機を使用すると、このデータセットの標準偏差が9.25であることがわかります。これにより、典型的な値が平均からどの程度離れているかがわかります。
類似点と相違点
四分位範囲と標準偏差には次の類似点があります。
- どちらのメトリクスも、データセット内の値の分布を測定します。
ただし、四分位範囲と標準偏差には次のような重要な違いがあります。
- 四分位範囲 (IQR) は極端な外れ値の影響を受けません。たとえば、IQR ではデータセットの 25 パーセンタイル値と 75 パーセンタイル値のみが使用されるため、データセット内の極端に小さい値または極端に大きい値は IQR 計算に影響しません。
- 標準偏差は、極端な外れ値の影響を受けます。たとえば、データ セット内の値が非常に大きい場合、標準偏差は式でデータ セット内のすべての値を使用するため、標準偏差が非常に大きくなります。
それぞれをいつ使用するか
極端な外れ値がある場合、データセット内の値の分布を測定するには、四分位範囲を使用する必要があります。
逆に、極端な外れ値がない場合は、標準偏差を使用して値の分布を測定する必要があります。
その理由を説明するには、次のデータセットを考えてみましょう。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
記事の前半で、このデータセットについて次のメトリクスを計算しました。
- IQR: 14.5
- 標準偏差: 9.25
ただし、データセットに極端な外れ値が含まれているかどうかを考慮してください。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378
計算機を使用して、このデータセットの次のメトリクスを見つけることができます。
- IQR: 15
- 標準偏差: 85.02
外れ値が存在する場合でも四分位範囲はほとんど変化しませんが、標準偏差は 9.25 から 85.02 に増加することに注意してください。
追加リソース
中心傾向の尺度: 定義と例
分散対策: 定義と例
四分位範囲を使用して外れ値を見つける方法