在统计中使用平均值的优点和缺点
数据集的均值表示该数据集的平均值。
计算方法如下:
平均值 = Σx i / n
金子:
- Σ:表示“和”的符号
- x i :数据集中的第 i个观察值
- n:数据集中的观测总数
使用均值来描述数据集的“中心”或“平均值”有两个主要优点:
优点#1:平均值在计算中使用数据集中的所有观测值。在统计学中,这通常是一件好事,因为据说它使用了数据集中的所有可用信息。
优点#2:平均值易于计算和解释。平均值是所有观测值的总和除以观测值总数。它既易于计算(甚至手动)又易于解释。
然而,使用平均值来总结数据集有两个潜在的缺点:
缺点#1:平均值受到异常值的影响。如果数据集存在极端异常值,则会影响平均值并使其成为数据集中心的不可靠度量。
缺点#2:平均值可能会因数据集倾斜而产生误导。当数据集向左或向右倾斜时,平均可能是测量数据集中心的误导性方法。
以下示例说明了实践中的这些优点和缺点。
示例 1:使用平均值的好处
假设我们有以下直方图,显示特定城市居民的工资:
由于此分布通常是对称的(如果将其从中间分开,则每一半看起来大致相等)并且没有异常值,因此均值是描述这组数据中心的有用方法。
平均值为 63,000 美元,大约位于分布的中心:
在这个特定的例子中,我们能够利用平均的两个优点:
优点#1:平均值在计算中使用数据集中的所有观测值。
由于分布基本上是对称的并且不存在极端异常值,因此我们能够使用所有可用的工资来计算平均值,这使我们很好地了解了这个特定城市的“平均”或“典型”工资。
优点#2:平均值易于计算和解释。很容易理解,平均工资63,000美元代表了这个城市个人的“平均”工资。
尽管有些人的收入比这个多得多,而另一些人的收入则少得多,但这个平均值让我们很好地了解了这个城市的“典型”工资。
示例 2:使用平均值的缺点
假设我们的工资分布非常不平衡,我们决定计算平均工资和中位数工资:
分布尾部的较高值会使均值远离中心并向长尾移动。
在此示例中,平均值告诉我们,典型个人的年收入约为 47,000 美元,而中位数告诉我们,典型个人的年收入仅为 32,000 美元左右,这更能代表典型个人。
在此示例中,平均值不能很好地概括此分布中的“典型”或“平均”值,因为分布是倾斜的。
或者假设我们有另一个分布,其中包含有关某条街道上房屋面积的信息,并且我们决定计算数据集的平均值和中位数:
平均值受到一些非常大的房屋的影响,导致其价值更高。
这使得平均平方英尺值具有误导性,并且无法很好地衡量该街道上房屋的“典型”平方英尺。
其他资源
以下教程提供了有关统计中平均值和中位数的更多信息: