什么是相对频率分布?
频率分布描述了不同值在数据集中出现的频率。
例如,假设我们收集一个城市 400 个家庭的简单随机样本,并记录每个家庭的宠物数量。下表显示了结果:
该表表示频率分布。
相关分布称为相对频率分布,它将数据集中每个值的相对频率显示为所有频率的百分比。
例如,在上表中我们看到总共有 400 户。为了找到分布中每个值的相对频率,我们只需将每个单独的频率除以 400:
请注意,相对频率分布具有以下属性:
- 每个单独的相对频率范围为 0% 到 100%。
- 所有个体相对频率的总和为 100%。
如果不满足这些条件,则相对频率分布无效。
为什么相对频率分布有用
相对频率分布很有用,因为它们使我们能够了解数据集中某个值与所有其他值相比的常见程度。
在前面的例子中,我们看到 150 个家庭只有一只宠物。但这个数字本身并不是特别有用。
相反,更有用的是知道样本中37.5%的家庭只有一只宠物。这有助于我们了解超过三分之一的家庭只养一只宠物,这让我们了解拥有一只宠物是多么“普遍”。
可视化相对频率分布
可视化相对频率分布的最常见方法是创建相对频率直方图,它沿图形的 x 轴显示各个数据值,并使用条形表示沿 y 轴的每个类别的相对频率。
例如,对于我们之前示例中的数据,相对频率直方图如下所示:
x 轴显示家庭中宠物的数量,y 轴显示家庭拥有该数量宠物的相对频率。
该直方图是可视化相对频率分布的有用方法。