为什么众数在统计学中很重要?


众数表示数据集中最常出现的值。

一个数据集可以没有模式(如果没有值重复)、一种模式或多种模式。

例如,以下数据集中的众数为 19:

数据 3、4、11、15、19、19、19、22、22、23、23、26

这是最常出现的值。

在统计学中,众数很重要,原因如下:

原因 1 :这让我们知道数据集中的哪些值最常见。

原因 2 :当无法计算平均值和中位数时,它对于查找分类数据中最常见的值很有用。

原因 3 :它让我们了解数据集的“中心”在哪里,尽管中位数和均值更常用(正如我们将在本文后面看到的)。

以下示例在实践中说明了这些原因。

原因 1:众数告诉我们哪个值最常见

假设我们有一个包含 100,000 行的数据集,其中包含美国房屋的销售价格:

假设我们使用统计软件(如ExcelRPython等)计算该数据集的众数,发现共有三种众数:

  • 280,000 美元
  • 30万美元
  • 305,000 美元

这立即让我们了解了数据集中最常见的房价。

计算众数千也比查看数据行并尝试确定哪些房价最常出现要快得多。

原因 2:该模式搜索分类数据中最常见的值

假设我们有一个包含 1,000 行的数据集,它告诉我们某个社区中个人拥有的汽车的颜色:

变量“颜色”是一个分类变量,这意味着这些值属于类别(“红色”、“黄色”、“黑色”等),因此我们无法计算平均值或中位数等定量值。

但是,我们可以计算众数,因为它仅代表数据集中最常见的值。

例如,我们可以使用统计软件来确定该数据集的模式为“黑色”,这告诉我们该数据集中最常见的汽车颜色是黑色。

原因3:众数让我们知道数据集的中心在哪里

该模式也被认为是集中趋势的度量,这意味着它可以让我们了解数据集的“中心”在哪里。

例如,假设我们有以下数据集,显示一个班级 20 名不同学生的考试成绩:

结果众数为82——这是最常见的考试分数。事实证明,这也很好地表明了“核心”评论评分值在此数据集中的位置。

但是,假设我们有以下考试结果数据集:

在此数据集中, 72是时尚考试分数。然而,事实证明,这并不能很好地表明考试的“核心”分数在哪里。

考试平均分是82.9分,考试中位数是82.5分,这两个分数都让我们更好地了解时尚的“中心”价值在哪里。

概括

以下是本文要点的简要总结:

  • 众数表示数据集中最常出现的值。
  • 当无法使用均值和中位数时,众数告诉我们分类数据中最常见的值。
  • 该众数让我们了解数据集的“中心”在哪里,但与平均值或中位数相比可能会产生误导。

其他资源

以下教程提供了有关统计中的均值、中位数和众数的更多信息:

为什么平均值在统计中很重要?
为什么中位数在统计学中很重要?
具体示例:使用平均值、中位数和众数
何时使用平均值与平均值中位数:带有示例

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注