箱ひげ図を使用する必要があるのはどのような場合ですか? (3つのシナリオ)


箱ひげ図は、データ セットの 5 桁の概要を表示するプロットの一種で、次のものが含まれます。

  • 最小値
  • 最初の四分位数 (25 パーセンタイル)
  • 中央値
  • 第 3 四分位数 (75 パーセンタイル)
  • 最大値

3 つの簡単な手順を使用して、任意のデータセットの箱ひげ図を作成します。

  • 1.第 1 四分位から第 3 四分位までのボックスを描画します
  • 2.中央値に垂直線を引きます
  • 3.四分位数の「ひげ」を最小値と最大値に描画します

通常、次の 3 つのシナリオのいずれかで箱ひげ図を作成します。

シナリオ 1: データセット内の値の分布を視覚化します。

箱ひげ図を使用すると、データセット内の値の分布をすばやく視覚化し、5 つの数値要約値がどこにあるかを確認できます。

シナリオ 2: 2 つ以上のディストリビューションを比較します。

並べた箱ひげ図を使用すると、2 つ以上の分布間の差異を視覚化し、分布間の中央値と値の分布を比較できます。

シナリオ 3: 外れ値を特定するため。

箱ひげ図では、外れ値は通常、各ひげを超えて広がる小さな円で表されます。観測値が次の基準のいずれかを満たす場合、その観測値は外れ値として定義されます。

  • 観測値が Q1 – 1.5*(四分位範囲) 未満である
  • 観測値が Q3 + 1.5*(四分位範囲) より大きい

箱ひげ図を作成すると、分布に外れ値があるかどうかをすぐに確認できます。

次の例は、各シナリオで箱ひげ図を使用する方法を示しています。

シナリオ 1: データセット内の値の分布を視覚化する

バスケットボールのコーチが、チームの選手が獲得したポイントの分布を視覚化したいと考え、次の箱ひげ図を作成するとします。

この箱ひげ図に基づいて、次の値をすぐに確認できます。

  • 最小値: 5
  • T1 (第 1 四分位数): 約 8
  • 中央値: 13 程度
  • T3 (第 3 四分位数): 約 18
  • 最大: 25

これにより、コーチは、プレーヤーが獲得したポイントが 5 ~ 25 の範囲であること、獲得ポイントの中央値が約 13 であること、およびプレーヤーの 50% が 1 試合あたり約 8 ~ 18 ポイントを獲得していることをすぐに確認できます。

シナリオ 2: 2 つ以上のディストリビューションを比較する

スポーツ アナリストが 3 つの異なるチームのバスケットボール選手の得点分布を比較し、次の箱ひげ図を作成するとします。

これらのグラフを使用すると、チーム C の中間点のスコアが最も高く、チーム A の中間点のスコアが最も低いことがすぐにわかります。

また、チーム B の箱ひげ図が最も長い箱を持っているため、チーム B が得点の分布が最も大きいこともすぐにわかります。

シナリオ 3: 外れ値を特定する

バスケットボールのコーチが、自分の選手の 1 人が得点の点で外れ値であるかどうかを知りたいとします。彼は、プレーヤーが獲得したポイントの分布を視覚化するために、次の箱ひげ図を作成することにしました。

このプロットを使用すると、コーチはプロットの上部にある小さな点が外れ値を示していることがわかります。

具体的には、プレーヤーの 1 人が約 50 得点を獲得しましたが、これは他のすべての得点と比較して異常値であると考えられます。

追加リソース

次のチュートリアルでは、実際に箱ひげ図を使用する方法について詳しく説明します。

箱ひげ図の四分位範囲 (IQR) を見つける方法
箱ひげ図で非対称性を特定する方法
箱ひげ図を比較する方法

次のチュートリアルでは、さまざまな統計ソフトウェアで箱ひげ図を作成する方法を説明します。

Google スプレッドシートで箱ひげ図を作成する方法
SPSS で箱ひげ図を作成する方法
Excel で並列箱ひげ図を作成する方法
R で並列箱ひげ図を作成する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です