箱ひげ図で非対称性を特定する方法
箱ひげ図は、データ セットの 5 桁の概要を表示するプロットの一種で、次のものが含まれます。
- 最小値
- 最初の四分位数 (25 パーセンタイル)
- 中央値
- 第 3 四分位数 (75 パーセンタイル)
- 最大値
次のプロセスを使用して箱ひげ図を描画します。
- 第 1 四分位 (Q1) から第 3 四分位 (Q3) までボックスを描画します。
- 次に、ボックスの内側の中央値に線を引きます。
- 次に、四分位数の「ひげ」を最小値と最大値に描画します。
箱ひげ図内の中央値がどこにあるかに基づいて、分布が歪んでいるかどうかを判断できます。
中央値がボックスの底に近く、ひげがボックスの下端で短くなる場合、分布は右に歪んでいます (または「正に」歪んでいます)。
中央値がボックスの上部に近く、ひげがボックスの上端で短くなる場合、分布は歪んだままになります (または「負に」歪んだままになります)。
中央値がボックスの中央にあり、ひげが両側でほぼ等しい場合、分布は対称です (または非対称ではありません)。
次の例は、箱ひげ図を使用して、分布が右に歪んでいるか、左に歪んでいるか、または歪んでいないかを判断する方法を示しています。
例 1: 右に歪んだ分布
米国の世帯年収の分布は右に偏っています。ほとんどの世帯の年間収入は 40,000 ドルから 80,000 ドルですが、分布には長い右裾があり、それよりはるかに収入の高い世帯を表しています。
世帯収入の分布を視覚化する箱ひげ図を作成すると、次のようになります。
中央値を表すボックス内の垂直線は、第 3 四分位よりも第 1 四分位にかなり近いことに注意してください。これは、分布が右に偏っていることを意味します。
例 2: 左に歪んだ分布
ほとんどの人口における死亡者の年齢分布は左に偏っています。ほとんどの人は 70 歳から 80 歳の間で生きますが、この年齢未満で生きる人はますます少なくなります。
死亡者の年齢分布を視覚化する箱ひげ図を作成すると、次のようになります。
中央値を表すボックス内の垂直線は、第 1 四分位よりも第 3 四分位にはるかに近いことに注意してください。これは、分布が左に偏っていることを意味します。
例 3: 対称分布
雄のサイズ分布はほぼ対称的であり、非対称性は見られません。たとえば、米国の男性の平均身長は約 69.1 インチです。高さの分布はほぼ対称で、一部は低く、他のものは高くなります。
米国の男性の身長の分布を視覚化する箱ひげ図を作成すると、次のようになります。
中央値を表すボックス内の垂直線も、第 1 四分位と第 3 四分位に近いことに注意してください。これは、分布が対称的で歪みがないことを意味します。