什么时候应该使用箱线图? (3个场景)


箱线图是一种显示数据集五位数字摘要的图,其中包括:

  • 最小值
  • 第一个四分位数(第 25 个百分位数)
  • 中值
  • 第三个四分位数(第 75 个百分位数)
  • 最大值

我们使用三个简单的步骤为任何数据集创建箱线图:

  • 1.从第一四分位数到第三四分位数画一个方框
  • 2.在中线处画一条垂直线
  • 3.将四分位数的“须线”绘制到最小值和最大值

我们通常在以下三种情况之一创建箱线图:

场景 1:可视化数据集中值的分布。

箱线图使我们能够快速可视化数据集中值的分布,并查看五个数值汇总值所在的位置。

场景 2:比较两个或多个分布。

并排箱线图使我们能够可视化两个或多个分布之间的差异,并比较分布之间的中值和值的分布。

场景 3:识别异常值。

在箱线图中,异常值通常由延伸到每个胡须之外的小圆圈表示。如果观测值满足以下条件之一,则将其定义为异常值:

  • 观测值小于 Q1 – 1.5*(四分位数间距)
  • 观测值大于 Q3 + 1.5*(四分位数间距)

通过创建箱线图,我们可以快速查看分布是否有异常值。

以下示例展示了我们如何在每个场景中使用箱线图。

场景 1:可视化数据集中值的分布

假设一名篮球教练想要可视化其球队球员得分的分布,因此创建了以下箱形图:

根据这个箱线图,他可以快速看到以下值:

  • 最低:5
  • T1(第一个四分位数):大约 8
  • 中位数:13左右
  • T3(第三个四分位数):约 18
  • 最多:25

这使得教练能够快速看到球员得分范围为 5 到 25 分,得分中位数约为 13,并且 50% 的球员每场得分约为 8 到 18 分。

场景 2:比较两个或多个分布

假设体育分析师想要比较三个不同球队的篮球运动员得分分布,并创建以下箱线图:

使用这些图表,他可以很快看到 C 队的中分得分最高,而 A 队的中分得分最低。

他还可以很快看到 B 队的得分分布最大,因为 B 队的箱线图具有最长的箱体。

场景 3:识别异常值

假设一位篮球教练想知道他的一名球员在得分方面是否异常。他决定创建以下箱线图来可视化球员得分的分布:

使用此图,教练可以看到图顶部的小点表示异常值。

具体来说,其中一名球员得分约为 50 分,与所有其他得分相比,这被认为是异常值。

其他资源

以下教程详细说明了如何在实践中使用箱线图:

如何查找箱线图的四分位距 (IQR)
如何识别箱线图中的不对称性
如何比较箱线图

以下教程解释了如何在不同的统计软件中创建箱线图:

如何在 Google 表格中创建箱线图
如何在 SPSS 中创建箱线图
如何在 Excel 中创建并排箱线图
如何在 R 中创建并排箱线图

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注