什么是密度曲线? (解释和示例)


密度曲线是图表上的一条曲线,表示一组数据中值的分布。这很有用,原因有以下三个:

1.密度曲线让我们很好地了解分布的“形状”,包括分布是否有一个或多个频率值“峰值”以及分布是否向左倾斜或对。正确的。 。

2.密度曲线使我们能够直观地看到分布的 平均值和中位数之间的关系。

3.密度曲线使我们能够直观地看到数据集中的观测值落在不同值之间的百分比。

最著名的密度曲线是代表正态分布的钟形曲线。

为了更好地理解密度曲线,请考虑以下示例。

示例:创建和解释密度曲线

假设我们有以下数据集,显示某个田地中 20 种不同植物的高度(以英寸为单位):

4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 9, 2, 2

如果我们创建一个简单的直方图来显示每个值的相对频率,它将如下所示:

R中的相对频率直方图

x 轴显示数据值,y 轴显示相对频率(例如,数据集中的 20 个总计值中,值“7”出现了 5 次,因此它的相对频率为 25% 或0.25

如果我们创建一条密度曲线来捕获该分布的“形状”,它会如下所示:

密度曲线示例

该曲线在分布中心附近最高,因为这是大多数值所在的位置。它在分布末端附近也是最低的,因为采用这些值的植物较少(例如高度 4 英寸或 10 英寸)。

如何解释密度曲线

密度曲线有各种形状和大小,它们使我们能够快速直观地了解给定数据集中值的分布。它们对于帮助我们可视化特别有用:

1. 不对称

偏度是描述分布对称性的一种方式。密度曲线使我们能够快速查看图形是否向左倾斜、向右倾斜或没有倾斜:

左偏密度曲线示例

右偏密度曲线示例

对称密度曲线示例

2. 均值和中位数的位置

根据密度曲线的偏度,我们可以快速判断给定分布中平均值或中位数是否较大。尤其:

  • 如果密度曲线保持不对称,则平均值低于中位数。
  • 如果密度曲线是右偏的,则平均值大于中位数。
  • 如果密度曲线没有不对称性,则平均值等于中位数。

3. 峰数

密度曲线还使我们能够快速查看给定分布中有多少个“峰值”。在上面的每个示例中,分布只有一个峰值,因此我们将这些分布描述为单峰分布

然而,某些分布可以有两个峰值,我们称之为双峰分布。在极少数情况下,我们还可以得到具有两个或更多峰值的多峰分布

通过简单地为给定数据集创建密度曲线,我们可以快速查看分布中有多少个峰值。

密度曲线的性质

密度曲线具有以下属性:

  • 曲线下面积之和始终为 100%。
  • 曲线永远不会低于 x 轴。

在创建或解释不同分布的密度曲线时,请记住这两个事实。

其他资源

相对频率直方图简介
如何在 Excel 中创建钟形曲线
如何用 Python 创建钟形曲线

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注