如何识别箱线图中的不对称性
箱线图是一种显示数据集五位数字摘要的图,其中包括:
- 最小值
- 第一个四分位数(第 25 个百分位数)
- 中值
- 第三个四分位数(第 75 个百分位数)
- 最大值
我们使用以下过程来绘制箱线图:
- 从第一个四分位数 (Q1) 到第三个四分位数 (Q3) 绘制一个方框
- 然后在方框内的中线处画一条线
- 然后将四分位数的“胡须”绘制到最小值和最大值。
我们可以根据箱线图中中值的位置来确定分布是否偏斜。
当中位数更接近盒子的底部并且盒子下端的须线较短时,分布是右偏的(或“正”偏)。
当中位数更接近盒子顶部并且盒子上端的须线较短时,分布左偏(或“负”偏)。
当中位数位于盒子的中间并且两侧的须线大致相等时,分布是对称的(或“不是”不对称的)。
以下示例说明如何使用箱线图来确定分布是右偏、左偏还是无偏。
示例 1:右偏分布
美国家庭年收入的分配是右偏的。大多数家庭的年收入在 40,000 美元到 80,000 美元之间,但分布上有一个长的右尾,代表收入更高的家庭。
如果我们创建一个箱线图来可视化家庭收入的分布,它会如下所示:
请注意,代表中位数的方框内的垂直线比第三四分位数更接近第一四分位数,这意味着分布向右倾斜。
示例 2:左偏分布
大多数人口的死亡年龄分布向左倾斜。大多数人活在70岁到80岁之间,活在这个年龄以下的人越来越少。
如果我们创建一个箱线图来可视化死亡的年龄分布,它会如下所示:
请注意,代表中位数的方框内的垂直线比第一个四分位数更接近第三个四分位数,这意味着分布向左倾斜。
示例3:对称分布
雄性的体型分布大致对称,没有表现出不对称。例如,美国男性的平均身高约为 69.1 英寸。身高分布大致对称,有的矮有的高。
如果我们创建一个箱线图来可视化美国男性身高的分布,它将如下所示:
请注意,代表中位数的方框内的垂直线也接近第一四分位数和第三四分位数,这意味着分布是对称的且没有偏斜。