四分位範囲と標準偏差: 違いは何ですか?

によるベンジャミン・アンダーソン博士 7月 26, 2023 ガイド 0コメント

四分位範囲と標準偏差は、データセット内の値の分布を測定する 2 つの方法です。

このチュートリアルでは、各メトリクスの簡単な説明と、2 つのメトリクスの類似点と相違点を説明します。

データセットの四分位範囲(IQR) は、第 1 四分位 (25 パーセンタイル) と第 3 四分位 (75 パーセンタイル) の差です。値の平均 50% の分布を測定します。

IQR = 第 3 四半期 – 第 1 四半期

たとえば、次のデータセットがあるとします。

データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

四分位範囲計算ツールによると、このデータセットの四分位範囲 (IQR) は次のように計算されます。

これは、データセット内の値の中央の 50% の偏差が14.5であることを示しています。

標準偏差

データセットの標準偏差は、平均値からの個々の値の典型的な偏差を測定する方法です。次のように計算されます。

s = √(Σ(x _i – x ) ² / (n-1))

たとえば、次のデータセットがあるとします。

データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

計算機を使用すると、このデータセットの標準偏差が9.25であることがわかります。これにより、典型的な値が平均からどの程度離れているかがわかります。

四分位範囲と標準偏差には次の類似点があります。

ただし、四分位範囲と標準偏差には次のような重要な違いがあります。

四分位範囲 (IQR) は極端な外れ値の影響を受けません。たとえば、IQR ではデータセットの 25 パーセンタイル値と 75 パーセンタイル値のみが使用されるため、データセット内の極端に小さい値または極端に大きい値は IQR 計算に影響しません。
標準偏差は、極端な外れ値の影響を受けます。たとえば、データセット内の値が非常に大きい場合、標準偏差は式でデータセット内のすべての値を使用するため、標準偏差が非常に大きくなります。

極端な外れ値がある場合、データセット内の値の分布を測定するには、四分位範囲を使用する必要があります。

逆に、極端な外れ値がない場合は、標準偏差を使用して値の分布を測定する必要があります。

その理由を説明するには、次のデータセットを考えてみましょう。

データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32

記事の前半で、このデータセットについて次のメトリクスを計算しました。

ただし、データセットに極端な外れ値が含まれているかどうかを考慮してください。

データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378

計算機を使用して、このデータセットの次のメトリクスを見つけることができます。

外れ値が存在する場合でも四分位範囲はほとんど変化しませんが、標準偏差は 9.25 から 85.02 に増加することに注意してください。

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る