什么是双峰分布?
双峰分布是具有两种模式的概率分布。
我们经常在描述性统计中使用术语“众数”来指代数据集中最常见的值,但在这种情况下,术语“众数”指的是图中的局部最大值。
查看双峰分布时,您会注意到代表这两种模式的两个不同的“峰值”。
这与只有一个峰值的单峰分布不同:
您可以通过记住以下内容来记住两者之间的区别:
- “bi”=二
- “团结”=一
尽管大多数统计课程使用正态分布等单峰分布来解释不同的主题,但双峰分布在实践中经常出现,因此了解如何识别和解释它们是很有用的。
注意:双峰分布是多峰分布的一种特定类型。
双峰分布的示例
以下是双峰分布的一些示例:
示例#1:餐厅高峰时段
如果您创建一个图表来可视化某家餐厅的每小时顾客分布,您可能会发现它遵循双峰分布,在午餐时间有一个峰值,在晚餐时间有另一个峰值:
示例编号2:两种植物的平均高度
假设您绕着田地走动并测量不同植物的高度。不知不觉中,您正在测量两种不同物种的大小:一种很大,另一种很小。如果您创建一个图表来可视化高度的分布,它将遵循双峰分布:
示例#3:考试结果
假设一位老师给他班上的学生进行考试。有些学生为了考试而学习,有些则没有。当老师创建考试成绩图表时,它遵循双峰分布,未学习的学生在低分附近有一个峰值,在学习的学生的高分附近有另一个峰值:
是什么导致双峰分布?
通常有两件事会导致双峰分布:
1.一些潜在的现象。
双峰分布通常是由于某些潜在现象而发生的。
例如,每小时光临餐厅的顾客数量遵循双峰分布,因为人们倾向于在两个不同的时间在餐厅吃饭:午餐和晚餐。这种潜在的人类行为是双峰分布的起源。
2. 两个不同的组组合在一起。
当您简单地分析两组不同的事物而没有意识到时,双峰分布也可能发生。
例如,如果您测量某个田地中植物的高度,但没有意识到同一田地中生长着两种不同的物种,则在创建图表时您将看到双峰分布。
如何分析双峰分布
我们经常使用平均值或中位数来描述分布,因为这让我们知道分布的“中心”在哪里。
不幸的是,对于双峰分布来说,平均值和中位数没有什么用处。例如,上例中学生的平均考试成绩为81:
然而,很少有学生得分接近 81 分。在这种情况下,平均值具有误导性。大多数学生实际上得分在 74 或 88 左右。
分析和解释双峰分布的更好方法是简单地将数据分为两个不同的组,然后分析每个组的中心和分布。
例如,我们可以将考试成绩分为“低分”和“高分”,然后找到每组的平均值和标准差。
如果您正在共享分析结果并且您的数据遵循双峰分布,那么创建像上面所示的直方图会很有帮助,以便您的受众可以清楚地看到该分布有两个不同的“峰值”,并且它只会使单独分析每个峰而不是作为一个大数据集进行分析是有意义的。