在统计中使用平均值的优点和缺点


数据集的均值表示该数据集的平均值。

计算方法如下:

平均值 = Σx i / n

金子:

  • Σ:表示“和”的符号
  • x i数据集中的第 i观察值
  • n:数据集中的观测总数

使用均值来描述数据集的“中心”或“平均值”有两个主要优点:

优点#1:平均值在计算中使用数据集中的所有观测值。在统计学中,这通常是一件好事,因为据说它使用了数据集中的所有可用信息。

优点#2:平均值易于计算和解释。平均值是所有观测值的总和除以观测值总数。它既易于计算(甚至手动)又易于解释。

然而,使用平均值来总结数据集有两个潜在的缺点:

缺点#1:平均值受到异常值的影响。如果数据集存在极端异常值,则会影响平均值并使其成为数据集中心的不可靠度量。

缺点#2:平均值可能会因数据集倾斜而产生误导。当数据集向左或向右倾斜时,平均可能是测量数据集中心的误导性方法。

以下示例说明了实践中的这些优点和缺点。

示例 1:使用平均值的好处

假设我们有以下直方图,显示特定城市居民的工资:

由于此分布通常是对称的(如果将其从中间分开,则每一半看起来大致相等)并且没有异常值,因此均值是描述这组数据中心的有用方法。

平均值为 63,000 美元,大约位于分布的中心:

在这个特定的例子中,我们能够利用平均的两个优点:

优点#1:平均值在计算中使用数据集中的所有观测值。

由于分布基本上是对称的并且不存在极端异常值,因此我们能够使用所有可用的工资来计算平均值,这使我们很好地了解了这个特定城市的“平均”或“典型”工资。

优点#2:平均值易于计算和解释。很容易理解,平均工资63,000美元代表了这个城市个人的“平均”工资。

尽管有些人的收入比这个多得多,而另一些人的收入则少得多,但这个平均值让我们很好地了解了这个城市的“典型”工资。

示例 2:使用平均值的缺点

假设我们的工资分布非常不平衡,我们决定计算平均工资和中位数工资:

分布尾部的较高值会使均值远离中心并向长尾移动。

在此示例中,平均值告诉我们,典型个人的年收入约为 47,000 美元,而中位数告诉我们,典型个人的年收入仅为 32,000 美元左右,这更能代表典型个人。

在此示例中,平均值不能很好地概括此分布中的“典型”或“平均”值,因为分布是倾斜的。

或者假设我们有另一个分布,其中包含有关某条街道上房屋面积的信息,并且我们决定计算数据集的平均值和中位数:

何时使用均值与中位数

平均值受到一些非常大的房屋的影响,导致其价值更高。

这使得平均平方英尺值具有误导性,并且无法很好地衡量该街道上房屋的“典型”平方英尺。

其他资源

以下教程提供了有关统计中平均值和中位数的更多信息:

异常值如何影响均值?
如何估计任何直方图的平均值和中位数
如何找到茎叶图的平均值和中位数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注