什么是统计学中的条件分布?


如果XY是两个联合分布的随机变量,那么给定XY条件分布就是已知X为某个值时Y的概率分布。

例如,下面的双向表显示了一项调查结果,该调查询问了 100 个人他们喜欢哪种运动:棒球、篮球或足球。

如果我们想知道一个人在男性的情况下更喜欢某种运动的概率,那么这就是条件分布的一个例子。

一个随机变量的值是已知的(该人是男性),但另一个随机变量的值是未知的(我们不知道他最喜欢的运动)。

为了找出男性运动偏好的条件分布,我们只需查看表中男性的线条值即可:

条件分布示例

条件分布计算如下:

  • 喜欢棒球的男性:13/48 = 0.2708
  • 喜欢篮球的男性:15/48 = 0.3125
  • 喜欢足球的男性:20/48 = 0.4167

请注意,概率总和为 1:13/48 + 15/48 + 20/48 = 48/48 = 1。

我们可以使用这个条件分布来回答以下问题:假设一个人是男性,棒球是他最喜欢的运动的概率是多少?

从我们之前计算的条件分布可以看出,概率是0.2708

用技术术语来说,当我们计算条件分布时,我们说我们对总体中的特定子群体感兴趣。上一个示例中的子群体由男性组成:

条件分布的子总体

当我们想要计算与该子群体相关的概率时,我们说我们对某个特定的感兴趣字符感兴趣。上一个例子中有趣的角色是棒球:

统计中的条件分布

为了找到感兴趣的性状出现在子群体中的概率,我们只需将感兴趣的性状的值(例如 13)除以子群体的总值(例如 48)即可得到 13/48 = 0.2708

条件分配和独立性

我们可以说,随机变量XY是独立的,当且仅当给定XY的条件分布对于X的所有可能实现而言,等于Y的无条件分布。

例如,在上表中,我们可以看到“喜欢棒球”和“男性”测试是独立的吗?

为了回答这个问题,我们来计算以下概率:

  • P(更喜欢棒球)
  • P(更喜欢棒球 | 男人)“更喜欢棒球,因为他们是男人

给定个体更喜欢棒球的概率是:

  • P(喜欢棒球)= 36/100 = 0.36

假设某个人是男性,他更喜欢棒球的概率为

  • P(喜欢棒球 | 男人)= 13/48 = .2708

由于 P(偏好棒球)不等于 P(偏好棒球 | 男性),因此运动偏好和性别的随机变量不是独立的。

为什么使用条件分布?

条件概率分布很有用,因为我们经常收集两个变量的数据(例如性别和运动偏好),但当我们知道其中一个变量的值时,我们希望回答有关概率的问题。

在前面的例子中,我们考虑了这样的场景:我们知道某个人是男性,我们只是想知道这个人更喜欢棒球的概率。

在现实生活中有很多情况,我们知道一个变量的值,并且可以使用条件分布来找到另一个变量取某个值的概率。

其他资源

什么是边际分布?
什么是联合概率分布?
如何在复式表中查找条件相对频率

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注