何时使用平均值与平均值中位数:带有示例
数据集的均值表示该数据集的平均值。计算方法如下:
平均值 = Σx i / n
金子:
- Σ:表示“和”的符号
- x i :数据集中的第 i个观察值
- n:数据集中的观测总数
中位数表示数据集的中间值。它的计算方法是将数据集中的所有观测值从小到大排序,然后确定中值。
例如,假设我们有以下包含 11 个观测值的数据集:
数据集: 3、4、4、6、7、8、12、13、15、16、17
数据集的平均值计算如下:
平均值 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54
数据集的中位数是正中间的值,结果是8:
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
数据集中心位置的平均值和中值估计。然而,根据数据的性质,均值或中位数在描述数据集的中心时可能更有用。
何时使用平均值
当分布基本对称且不存在异常值时,最好使用均值来描述数据集的中心。
例如,假设我们有以下分布,显示了某个城市居民的工资:
由于这个分布相当对称(如果将其从中间分开,每一半看起来大致相等)并且没有异常值,因此我们可以使用平均值来描述这组数据的中心。
平均值为 63,000 美元,大约位于分布的中心:
何时使用中位数
当分布偏斜或存在异常值时,最好使用中位数。
扭曲的数据:
当分布倾斜时,中位数比均值更好地描述分布的中心。
例如,考虑以下某个城市居民的工资分布:
中位数比平均值更能反映居民的“典型”工资。这是因为分布尾部的高值往往会将均值推离中心并向长尾移动。
在此示例中,平均值告诉我们,典型个人的年收入约为 47,000 美元,而中位数告诉我们,典型个人的年收入仅为 32,000 美元左右,这更能代表典型个人。
异常值:
当数据中存在异常值时,中位数还有助于更好地捕获分布的中心位置。例如,请考虑下图,该图显示了某条街道上房屋的平方英尺:
平均值很大程度上受到一些非常大的房屋的影响,而中位数则不然。因此,中位数比平均值更能捕捉该街道上房屋的“典型”平方英尺。
概括
总之:
- 平均值和中位数可用于描述数据集的“中心”在哪里。
- 当数据值分布对称并且没有明显的异常值时,最好使用平均值。
- 当数据值分布有偏差或者存在明显异常值时,最好使用中位数。