在统计中使用中位数的优点和缺点


中位数表示数据集的中间值。

它的计算方法是将数据集中的所有观测值从小到大排序,然后确定中值。

使用中位数来描述数据集的中心有两个主要优点:

优点#1:中位数不受异常值的影响。由于中位数只找到数据集中间的值,因此它不受数据集两端极小或极大值的影响。

优点#2:中位数是倾斜数据集中心的良好衡量标准。当数据集向左或向右倾斜时,中位数仍然能够识别数据集的中心值,这与受倾斜分布严重影响的均值不同。

然而,使用中位数来总结数据集有两个潜在的缺点:

缺点#1:中位数在计算中不使用数据集中的所有观测值。在统计学中,我们通常说,如果我们可以使用数据集中的所有观察结果,那是一件好事,因为这样我们就可以使用数据中可用的所有信息。然而,中位数并没有考虑数据集中极小或极大值的信息。

缺点#2:中位数不能用于查找数据集中所有观测值的总和。如果我们知道数据集的平均值和总样本量,我们就可以找到数据集中所有值的总和。然而,我们不能对中位数做同样的事情。

以下示例说明了实践中的这些优点和缺点。

示例1:使用中位数的优点

假设我们的工资分布非常不平衡,我们决定计算平均工资和中位数工资:

平均值告诉我们,典型个人的年收入约为 47,000 美元,而中位数告诉我们,典型个人的年收入仅为 32,000 美元左右,这更能代表典型个人。

在这个例子中,均值受到分布右尾最高值的影响,而中位数则不受影响。

或者假设我们有另一个分布,其中包含有关某条街道上房屋面积的信息,并且我们决定计算数据集的平均值和中位数:

何时使用均值与中位数

平均值受到一些非常大的房屋的影响,导致其价值更高。

然而,中位数不受这些异常值的影响,因此可以更好地衡量该街道上房屋的“典型”平方英尺。

示例2:使用中位数的缺点

让我们回顾一下中位数的第一个潜在缺点:

缺点#1:中位数在计算中不使用数据集中的所有观测值。

例如,假设我们有以下数据集,显示班级中学生的考试成绩分布:

评分 68、70、71、75、78、82、83、83、85、90、91、91、92

考试平均分是 83 分。

现在假设我们有相同的数据集,但三个最低的考试成绩要低得多:

评级 22、35、38、75、78、82、83、83、85、90、91、91、92

此分布中的考试分数中位数仍然是 83。

这就是为什么我们说中位数没有使用数据集中的所有可用信息:它没有考虑数据的实际值,因为它只是位置的度量。

现在让我们回顾一下中位数的第二个潜在缺点:

缺点#2:中位数不能用于查找数据集中所有观测值的总和。

假设我们有以下数据集,其中包含特定季度 11 名不同员工的总销售额信息:

销售:12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

我们知道中位数是 24,并且我们知道总共有 11 名员工。但是,我们无法使用此信息来了解所有员工的总销售额。

另一方面,如果我们知道平均值为 24,并且总共有 11 名员工,我们可以简单地将 24 乘以 11,得出总销售额为 24 * 11 = 264。

注意:根据数据的分布和您要解决的问题,平均值或中位数可能是首选使用的指标。

其他资源

以下教程提供了有关统计中平均值和中位数的更多信息:

异常值如何影响均值?
如何估计任何直方图的平均值和中位数
如何找到茎叶图的平均值和中位数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注