如何比较箱线图:举例


箱线图是一种显示数据集五位数字摘要的图,其中包括:

  • 最小值
  • 第一个四分位数(第 25 个百分位数)
  • 中值
  • 第三个四分位数(第 75 个百分位数)
  • 最大值

为了制作箱线图,我们从第一四分位数到第三四分位数绘制一个箱线。接下来,我们在中线处画一条垂直线。最后,我们绘制四分位数的“须线”,直到最小值和最大值。

箱线图很有用,因为它们可以让我们快速了解数据集中值的分布。它们对于比较两个不同的数据集也很有用。

在比较两个或多个箱线图时,我们可以回答四个不同的问题:

1. 中值如何比较?我们可以比较每个框中的垂直线来确定哪个数据集具有更高的中值。

2. 分散度比较如何?我们可以比较每个框的长度(代表 Q1 和 Q3 之间的距离——四分位距)来确定哪个数据集更大。

3. 不对称性如何比较?垂直线越接近第一季度,数据集的正偏斜程度就越大。垂直线越接近第三季度,数据集的倾斜程度就越大。

4. 是否存在异常值?在箱线图中,异常值通常由延伸到每个胡须之外的小圆圈表示。如果观测值满足以下条件之一,则将其定义为异常值:

  • 一个观察值小于 Q1 – 1.5*IQR
  • 观察值大于 Q3 + 1.5*IQR

以下示例演示如何比较两个不同的箱线图并回答这四个问题。

示例:比较箱线图

以下数据集显示了使用两种学习技巧之一来准备考试的学生的结果:

方法 1: 78、78、79、80、80、82、82、83、83、86、86、86、86、87、87、87、88、88、88、91

方法2: 66、66、66、67、68、70、72、75、75、78、82、83、86、88、89、90、93、94、95、98

如果我们为每个数据集创建箱线图,它们将如下所示:

箱线图比较示例

我们可以比较这两个箱线图并回答以下四个问题:

1. 中值如何比较?学习方法 1 的箱形图中间的线高于学习方法 2 的线,表明使用学习方法 1 的学生在考试中的中位数成绩较高。

2. 分散度比较如何?学习方法 2 的箱线图比学习方法 1 的箱线图长得多,这表明使用学习方法 2 的学生的考试成绩分布更均匀。

3. 不对称性如何比较?学习方法 1 的箱线图中间的线接近 Q3,表明使用学习方法 1 的学生的考试成绩分布呈负偏态。相反,研究方法 2 的箱线图中间的线接近箱的中心,这意味着分数分布的偏斜程度最小。

4. 是否存在异常值?两个箱线图都没有超出顶部或底部胡须的小圆圈,这意味着两个数据集都没有明显的异常值。

其他资源

如何在 Excel 中创建和解释箱线图
如何在 SPSS 中创建和解释箱线图
如何在 R 中创建多个箱线图
如何在 Stata 中创建和解释箱线图

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注