什么时候应该使用箱线图? (3个场景)
箱线图是一种显示数据集五位数字摘要的图,其中包括:
- 最小值
- 第一个四分位数(第 25 个百分位数)
- 中值
- 第三个四分位数(第 75 个百分位数)
- 最大值
我们使用三个简单的步骤为任何数据集创建箱线图:
- 1.从第一四分位数到第三四分位数画一个方框
- 2.在中线处画一条垂直线
- 3.将四分位数的“须线”绘制到最小值和最大值
我们通常在以下三种情况之一创建箱线图:
场景 1:可视化数据集中值的分布。
箱线图使我们能够快速可视化数据集中值的分布,并查看五个数值汇总值所在的位置。
场景 2:比较两个或多个分布。
并排箱线图使我们能够可视化两个或多个分布之间的差异,并比较分布之间的中值和值的分布。
场景 3:识别异常值。
在箱线图中,异常值通常由延伸到每个胡须之外的小圆圈表示。如果观测值满足以下条件之一,则将其定义为异常值:
- 观测值小于 Q1 – 1.5*(四分位数间距)
- 观测值大于 Q3 + 1.5*(四分位数间距)
通过创建箱线图,我们可以快速查看分布是否有异常值。
以下示例展示了我们如何在每个场景中使用箱线图。
场景 1:可视化数据集中值的分布
假设一名篮球教练想要可视化其球队球员得分的分布,因此创建了以下箱形图:
根据这个箱线图,他可以快速看到以下值:
- 最低:5
- T1(第一个四分位数):大约 8
- 中位数:13左右
- T3(第三个四分位数):约 18
- 最多:25
这使得教练能够快速看到球员得分范围为 5 到 25 分,得分中位数约为 13,并且 50% 的球员每场得分约为 8 到 18 分。
场景 2:比较两个或多个分布
假设体育分析师想要比较三个不同球队的篮球运动员得分分布,并创建以下箱线图:
使用这些图表,他可以很快看到 C 队的中分得分最高,而 A 队的中分得分最低。
他还可以很快看到 B 队的得分分布最大,因为 B 队的箱线图具有最长的箱体。
场景 3:识别异常值
假设一位篮球教练想知道他的一名球员在得分方面是否异常。他决定创建以下箱线图来可视化球员得分的分布:
使用此图,教练可以看到图顶部的小点表示异常值。
具体来说,其中一名球员得分约为 50 分,与所有其他得分相比,这被认为是异常值。
其他资源
以下教程详细说明了如何在实践中使用箱线图:
如何查找箱线图的四分位距 (IQR)
如何识别箱线图中的不对称性
如何比较箱线图
以下教程解释了如何在不同的统计软件中创建箱线图:
如何在 Google 表格中创建箱线图
如何在 SPSS 中创建箱线图
如何在 Excel 中创建并排箱线图
如何在 R 中创建并排箱线图