在统计中使用中位数的优点和缺点
中位数表示数据集的中间值。
它的计算方法是将数据集中的所有观测值从小到大排序,然后确定中值。
使用中位数来描述数据集的中心有两个主要优点:
优点#1:中位数不受异常值的影响。由于中位数只找到数据集中间的值,因此它不受数据集两端极小或极大值的影响。
优点#2:中位数是倾斜数据集中心的良好衡量标准。当数据集向左或向右倾斜时,中位数仍然能够识别数据集的中心值,这与受倾斜分布严重影响的均值不同。
然而,使用中位数来总结数据集有两个潜在的缺点:
缺点#1:中位数在计算中不使用数据集中的所有观测值。在统计学中,我们通常说,如果我们可以使用数据集中的所有观察结果,那是一件好事,因为这样我们就可以使用数据中可用的所有信息。然而,中位数并没有考虑数据集中极小或极大值的信息。
缺点#2:中位数不能用于查找数据集中所有观测值的总和。如果我们知道数据集的平均值和总样本量,我们就可以找到数据集中所有值的总和。然而,我们不能对中位数做同样的事情。
以下示例说明了实践中的这些优点和缺点。
示例1:使用中位数的优点
假设我们的工资分布非常不平衡,我们决定计算平均工资和中位数工资:
平均值告诉我们,典型个人的年收入约为 47,000 美元,而中位数告诉我们,典型个人的年收入仅为 32,000 美元左右,这更能代表典型个人。
在这个例子中,均值受到分布右尾最高值的影响,而中位数则不受影响。
或者假设我们有另一个分布,其中包含有关某条街道上房屋面积的信息,并且我们决定计算数据集的平均值和中位数:
平均值受到一些非常大的房屋的影响,导致其价值更高。
然而,中位数不受这些异常值的影响,因此可以更好地衡量该街道上房屋的“典型”平方英尺。
示例2:使用中位数的缺点
让我们回顾一下中位数的第一个潜在缺点:
缺点#1:中位数在计算中不使用数据集中的所有观测值。
例如,假设我们有以下数据集,显示班级中学生的考试成绩分布:
评分: 68、70、71、75、78、82、83、83、85、90、91、91、92
考试平均分是 83 分。
现在假设我们有相同的数据集,但三个最低的考试成绩要低得多:
评级: 22、35、38、75、78、82、83、83、85、90、91、91、92
此分布中的考试分数中位数仍然是 83。
这就是为什么我们说中位数没有使用数据集中的所有可用信息:它没有考虑数据的实际值,因为它只是位置的度量。
现在让我们回顾一下中位数的第二个潜在缺点:
缺点#2:中位数不能用于查找数据集中所有观测值的总和。
假设我们有以下数据集,其中包含特定季度 11 名不同员工的总销售额信息:
销售:12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38
我们知道中位数是 24,并且我们知道总共有 11 名员工。但是,我们无法使用此信息来了解所有员工的总销售额。
另一方面,如果我们知道平均值为 24,并且总共有 11 名员工,我们可以简单地将 24 乘以 11,得出总销售额为 24 * 11 = 264。
注意:根据数据的分布和您要解决的问题,平均值或中位数可能是首选使用的指标。
其他资源
以下教程提供了有关统计中平均值和中位数的更多信息: