在统计中使用中位数的优点和缺点

经过本杰明·安德森博 7月 4, 2023 指导 0 条评论

中位数表示数据集的中间值。

它的计算方法是将数据集中的所有观测值从小到大排序，然后确定中值。

使用中位数来描述数据集的中心有两个主要优点：

优点#1：中位数不受异常值的影响。由于中位数只找到数据集中间的值，因此它不受数据集两端极小或极大值的影响。

优点#2：中位数是倾斜数据集中心的良好衡量标准。当数据集向左或向右倾斜时，中位数仍然能够识别数据集的中心值，这与受倾斜分布严重影响的均值不同。

然而，使用中位数来总结数据集有两个潜在的缺点：

缺点#1：中位数在计算中不使用数据集中的所有观测值。在统计学中，我们通常说，如果我们可以使用数据集中的所有观察结果，那是一件好事，因为这样我们就可以使用数据中可用的所有信息。然而，中位数并没有考虑数据集中极小或极大值的信息。

缺点#2：中位数不能用于查找数据集中所有观测值的总和。如果我们知道数据集的平均值和总样本量，我们就可以找到数据集中所有值的总和。然而，我们不能对中位数做同样的事情。

以下示例说明了实践中的这些优点和缺点。

示例1：使用中位数的优点

假设我们的工资分布非常不平衡，我们决定计算平均工资和中位数工资：

平均值告诉我们，典型个人的年收入约为 47,000 美元，而中位数告诉我们，典型个人的年收入仅为 32,000 美元左右，这更能代表典型个人。

在这个例子中，均值受到分布右尾最高值的影响，而中位数则不受影响。

或者假设我们有另一个分布，其中包含有关某条街道上房屋面积的信息，并且我们决定计算数据集的平均值和中位数：

何时使用均值与中位数

平均值受到一些非常大的房屋的影响，导致其价值更高。

然而，中位数不受这些异常值的影响，因此可以更好地衡量该街道上房屋的“典型”平方英尺。

让我们回顾一下中位数的第一个潜在缺点：

缺点#1：中位数在计算中不使用数据集中的所有观测值。

例如，假设我们有以下数据集，显示班级中学生的考试成绩分布：

评分： 68、70、71、75、78、82、83、83、85、90、91、91、92

考试平均分是 83 分。

现在假设我们有相同的数据集，但三个最低的考试成绩要低得多：

评级： 22、35、38、75、78、82、83、83、85、90、91、91、92

此分布中的考试分数中位数仍然是 83。

这就是为什么我们说中位数没有使用数据集中的所有可用信息：它没有考虑数据的实际值，因为它只是位置的度量。

现在让我们回顾一下中位数的第二个潜在缺点：

缺点#2：中位数不能用于查找数据集中所有观测值的总和。

假设我们有以下数据集，其中包含特定季度 11 名不同员工的总销售额信息：

销售：12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

我们知道中位数是 24，并且我们知道总共有 11 名员工。但是，我们无法使用此信息来了解所有员工的总销售额。

另一方面，如果我们知道平均值为 24，并且总共有 11 名员工，我们可以简单地将 24 乘以 11，得出总销售额为 24 * 11 = 264。

注意：根据数据的分布和您要解决的问题，平均值或中位数可能是首选使用的指标。

以下教程提供了有关统计中平均值和中位数的更多信息：

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多