インターバル vs.四分位範囲: 違いは何ですか?
統計では、間隔と四分位範囲は、データセット内の値の分布を測定する 2 つの方法です。
範囲は、データセット内の最小値と最大値の差を測定します。
四分位範囲は、データセット内の第 1 四分位 (25 パーセンタイル) と第 3 四分位 (75 パーセンタイル) の間の差を測定します。これは、値の中央の 50% の分布を表します。
例: 間隔と四分位範囲の計算方法
次のデータセットがあるとします。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
次の手順を使用して範囲を計算できます。
- 範囲 = 最大値 – 最小値
- 範囲 = 32 – 1
- 範囲 = 31
四分位範囲計算ツールを使用すると、四分位範囲の計算に役立ちます。
- 四分位間スケール = 第 3 四分位 – 第 1 四分位
- 四分位スケール = 26.5 – 12
- 四分位範囲 = 14.5
範囲はデータセットの分布を示し、四分位範囲はデータセットの中央半分の分布を示します。
範囲と四分位範囲: 類似点と相違点
間隔と四分位範囲には次の類似点があります。
- どちらのメトリクスも、データセット内の値の分布を測定します。
ただし、間隔と四分位範囲には次の違いがあります。
- 範囲は、データセット内の最大値と最小値の差を示します。
- 四分位範囲は、データセット内の値の中間 50% の分布を示します。
間隔と四分位範囲: それぞれをいつ使用するか
データセット内の最大値と最小値の違いを理解したい場合は、 rangeを使用する必要があります。
たとえば、教授が 100 人の学生に試験を行うとします。彼女はスケールを使用して、クラスのすべての生徒が達成した最高点と最低点の差を理解できます。
逆に、データセットの 75 パーセンタイルと 25 パーセンタイルの間のギャップを理解したい場合は、四分位範囲を使用する必要があります。
たとえば、教授が 100 人の学生に試験を実施する場合、四分位範囲を使用して、75 パーセンタイルの得点をとった学生と 25 パーセンタイルの得点をとった学生の間の試験の得点の差をすぐに理解できます。
データセット内の値の分布を記述するために、間隔を使用するか四分位範囲を使用するかを選択する必要がないことに注意してください。
両方の指標はまったく異なる情報を提供するため、両方の指標を使用できます。
ビーチ利用の裏側
この範囲には、外れ値の影響を受けるという欠点があります。
これを説明するために、次のデータセットを考えてみましょう。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
このデータセットの範囲は 32 – 1 = 31です。
ただし、データセットに極端な外れ値が含まれているかどうかを考慮してください。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378
このデータセットの範囲は 378 – 1 = 377になります。
外れ値により範囲が大幅に変化することに注目してください。
データセットの範囲を計算する前に、範囲を誤解させる可能性のある外れ値がないかどうかを確認することをお勧めします。
追加リソース
次のチュートリアルでは、四分位範囲に関する追加情報を提供します。