Cdf 或 pdf:有什么区别?


本教程简单解释了统计学中 PDF(概率密度函数)和 CDF(累积分布函数)之间的差异。

随机变量

在定义 PDF 或 CDF 之前,我们首先需要了解随机变量。

随机变量,通常表示为 X,是一个其值为随机过程的数值结果的变量。随机变量有两种类型:离散变量和连续变量。

离散随机变量

离散随机变量是只能取可数个不同值的变量,如 0、1、2、3、4、5…100、100 万等。以下是离散随机变量的一些示例:

  • 一枚硬币抛掷 20 次后反面落地的次数。
  • 骰子滚动 100 次后落在数字4上的次数。

连续随机变量

连续随机变量是可以取无限多个可能值的变量。以下是连续随机变量的一些示例:

  • 一个人的身高
  • 动物的体重
  • 步行一英里所需时间

例如,一个人的身高可能是 60.2 英寸、65.2344 英寸、70.431222 英寸等。大小有无数可能的值。

一般经验法则:如果您可以计算结果的数量,那么您正在使用离散随机变量(例如,计算硬币正面朝上的次数)。但是,如果您可以测量结果,那么您正在使用连续随机变量(例如测量值、身高、体重、时间等)

概率密度函数

概率密度函数(pdf) 告诉我们随机变量取特定值的概率。

例如,假设我们掷一次骰子。如果我们让x表示骰子落在的数字,那么结果的概率密度函数可以描述如下:

P(x < 1) : 0

P(x = 1) :1/6

P(x = 2) : 1/6

P(x = 3) : 1/6

P(x = 4) : 1/6

P(x = 5) : 1/6

P(x = 6) : 1/6

P(x > 6) : 0

请注意,这是离散随机变量的示例,因为x只能取整数值。

对于连续随机变量,我们不能直接使用 PDF,因为x取精确值的概率为零。

例如,假设我们想知道特定餐厅的汉堡重四分之一磅(0.25 磅)的概率。由于重量是连续变量,因此它可以取无限多个值。

例如,给定的汉堡包实际上可能重 0.250001 磅、0.24 磅或 0.2488 磅。给定汉堡的重量恰好为 0.25 磅的概率基本上为零。

累积分布函数

累积分布函数(cdf) 告诉我们随机变量的值小于或等于x 的概率。

例如,假设我们掷一次骰子。如果我们让x表示骰子落在的数字,那么结果的累积分布函数可以描述如下:

P(x≤0) :0

P(x≤1) :1/6

P(x≤2) :2/6

P(x≤3) :3/6

P(x≤4) :4/6

P(x≤5) :5/6

P(x≤6) :6/6

P(x > 6) : 0

请注意, x小于或等于6的概率为 6/6,等于 1。这是因为骰子将以 100% 的概率落在 1、2、3、4、5 或 6 上。

此示例使用离散随机变量,但连续密度函数也可用于连续随机变量。

累积分布函数具有以下属性:

  • 随机变量取小于最小可能值的概率为零。例如,骰子落在小于 1 的值上的概率为零。
  • 随机变量取小于或等于最大可能值的概率为 1。例如,骰子落在 1、2、3、4、5 或 6 的值上的概率为 1。它必须落在这些数字之一上。
  • cdf 始终不减。也就是说,骰子落在小于等于1的数字上的概率是1/6,落在小于等于2的数字上的概率是2/6,落在小于等于2的数字上的概率是2/6。小于或等于3的数是3/6,等等。累积概率始终不减。

相关:您可以使用尖形图来可视化累积分布函数。

CDF 和 PDF 之间的关系

用技术术语来说,概率密度函数 (pdf) 是累积分布函数 (cdf) 的导数。

此外,负无穷大和x之间的 pdf 曲线下面积等于 cdf 上的x值。

要详细解释 pdf 和 cdf 之间的关系,以及证明为什么 pdf 是 cdf 的导数,请参阅统计教科书。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注