統計において範囲が重要なのはなぜですか?
統計では、範囲はデータセット内の最小値と最大値の差を表します。
たとえば、次のデータセットがあるとします。
データセット: 3、4、11、15、19、19、19、22、22、23、23、26
次の式を使用して範囲を計算できます。
- 範囲 = 最大値 – 最小値
- 範囲 = 26 – 3
- 範囲 = 23
範囲は23です。これは、データセット内の最小値と最大値の差を表します。
統計では、次の理由から範囲が重要です。
理由 1 : これにより、データ セット全体の分布がわかります。
理由 2 : 特定のデータセットでどのような極値が考えられるかを教えてくれます。
次の例は、実際のこれらの理由をそれぞれ示しています。
理由 1: 範囲によって、データセット全体の分布がわかります。
範囲は、データセット全体の分布を示します。
たとえば、クラス内の 20 人の異なる生徒の試験の得点を示す次のデータセットがあるとします。
試験結果の範囲は次のように計算されます。
- 範囲 = 最大値 – 最小値
- 範囲 = 98 – 68
- 範囲 = 30
範囲は30であることがわかります。これは、試験の最高成績とクラスの最低成績の差を表します。
この測定値を正確に知ることで、教室の教師はすべての生徒間の試験結果の値の分布をすぐに理解できます。
理由 2: 範囲は、特定のデータセットでどの極値が可能であるかを示します
この範囲は、特定のデータセットでどの極値が可能であるかを示します。
たとえば、不動産業者が、米国の特定の都市の 100,000 戸の住宅の販売価格を含むデータベースにアクセスできるとします。
統計ソフトウェア ( Excel 、 R 、 Pythonなど) を使用してこのデータセットの範囲を計算し、次の結果を見つけたとします。
- 範囲=最大値-最小値
- 範囲 = 854,000 – 194,000
- 範囲 = 660,000
不動産業者の顧客の購入予算が 194,000 ドル未満、または 854,000 ドルを超えている場合、不動産業者は、その特定の都市には購入基準を満たす家がないことをすぐに知ることができます。
ビーチ利用の裏側
この範囲には、外れ値の影響を受けるという欠点があります。
これを説明するために、次のデータセットを考えてみましょう。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32
このデータセットの範囲は 32 – 1 = 31です。
ただし、データセットに極端な外れ値が含まれているかどうかを考慮してください。
データセット: 1、4、8、11、13、17、19、19、20、23、24、24、25、28、29、31、32、378
このデータセットの範囲は 378 – 1 = 377になります。
外れ値により範囲が大幅に変化することに注目してください。
データセットの範囲を計算する前に、範囲を誤解させる可能性のある外れ値がないかどうかを確認することをお勧めします。
追加リソース
次のチュートリアルでは、統計における他の尺度の重要性について説明します。
統計において平均が重要なのはなぜですか?
統計において中央値が重要なのはなぜですか?
統計において最頻値が重要なのはなぜですか?
統計において標準偏差が重要なのはなぜですか?