何时使用平均值与平均值中位数:带有示例


数据集的均值表示该数据集的平均值。计算方法如下:

平均值 = Σx i / n

金子:

  • Σ:表示“和”的符号
  • x i数据集中的第 i观察值
  • n:数据集中的观测总数

中位数表示数据集的中间值。它的计算方法是将数据集中的所有观测值从小到大排序,然后确定中值。

例如,假设我们有以下包含 11 个观测值的数据集:

数据集: 3、4、4、6、7、8、12、13、15、16、17

数据集的平均值计算如下:

平均值 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54

数据集的中位数是正中间的值,结果是8:

3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17

数据集中心位置的平均值和中值估计。然而,根据数据的性质,均值或中位数在描述数据集的中心时可能更有用。

何时使用平均值

当分布基本对称且不存在异常值时,最好使用均值来描述数据集的中心。

例如,假设我们有以下分布,显示了某个城市居民的工资:

由于这个分布相当对称(如果将其从中间分开,每一半看起来大致相等)并且没有异常值,因此我们可以使用平均值来描述这组数据的中心。

平均值为 63,000 美元,大约位于分布的中心:

何时使用中位数

当分布偏斜或存在异常值时,最好使用中位数。

扭曲的数据:

当分布倾斜时,中位数比均值更好地描述分布的中心。

例如,考虑以下某个城市居民的工资分布:

中位数比平均值更能反映居民的“典型”工资。这是因为分布尾部的高值往往会将均值推离中心并向长尾移动。

在此示例中,平均值告诉我们,典型个人的年收入约为 47,000 美元,而中位数告诉我们,典型个人的年收入仅为 32,000 美元左右,这更能代表典型个人。

异常值:

当数据中存在异常值时,中位数还有助于更好地捕获分布的中心位置。例如,请考虑下图,该图显示了某条街道上房屋的平方英尺:

何时使用均值与中位数

平均值很大程度上受到一些非常大的房屋的影响,而中位数则不然。因此,中位数比平均值更能捕捉该街道上房屋的“典型”平方英尺。

概括

总之:

  • 平均值和中位数可用于描述数据集的“中心”在哪里。
  • 当数据值分布对称并且没有明显的异常值时,最好使用平均值。
  • 当数据值分布有偏差或者存在明显异常值时,最好使用中位数。

其他资源

异常值如何影响均值?
如何估计任何直方图的平均值和中位数
如何找到茎叶图的平均值和中位数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注