什么是统计学中的条件分布?
如果X和Y是两个联合分布的随机变量,那么给定X的Y的条件分布就是已知X为某个值时Y的概率分布。
例如,下面的双向表显示了一项调查结果,该调查询问了 100 个人他们喜欢哪种运动:棒球、篮球或足球。
如果我们想知道一个人在男性的情况下更喜欢某种运动的概率,那么这就是条件分布的一个例子。
一个随机变量的值是已知的(该人是男性),但另一个随机变量的值是未知的(我们不知道他最喜欢的运动)。
为了找出男性运动偏好的条件分布,我们只需查看表中男性的线条值即可:
条件分布计算如下:
- 喜欢棒球的男性:13/48 = 0.2708
- 喜欢篮球的男性:15/48 = 0.3125
- 喜欢足球的男性:20/48 = 0.4167
请注意,概率总和为 1:13/48 + 15/48 + 20/48 = 48/48 = 1。
我们可以使用这个条件分布来回答以下问题:假设一个人是男性,棒球是他最喜欢的运动的概率是多少?
从我们之前计算的条件分布可以看出,概率是0.2708 。
用技术术语来说,当我们计算条件分布时,我们说我们对总体中的特定子群体感兴趣。上一个示例中的子群体由男性组成:
当我们想要计算与该子群体相关的概率时,我们说我们对某个特定的感兴趣字符感兴趣。上一个例子中有趣的角色是棒球:
为了找到感兴趣的性状出现在子群体中的概率,我们只需将感兴趣的性状的值(例如 13)除以子群体的总值(例如 48)即可得到 13/48 = 0.2708 。
条件分配和独立性
我们可以说,随机变量X和Y是独立的,当且仅当给定X的Y的条件分布对于X的所有可能实现而言,等于Y的无条件分布。
例如,在上表中,我们可以看到“喜欢棒球”和“男性”测试是独立的吗?
为了回答这个问题,我们来计算以下概率:
- P(更喜欢棒球)
- P(更喜欢棒球 | 男人)“更喜欢棒球,因为他们是男人
给定个体更喜欢棒球的概率是:
- P(喜欢棒球)= 36/100 = 0.36 。
假设某个人是男性,他更喜欢棒球的概率为
- P(喜欢棒球 | 男人)= 13/48 = .2708 。
由于 P(偏好棒球)不等于 P(偏好棒球 | 男性),因此运动偏好和性别的随机变量不是独立的。
为什么使用条件分布?
条件概率分布很有用,因为我们经常收集两个变量的数据(例如性别和运动偏好),但当我们知道其中一个变量的值时,我们希望回答有关概率的问题。
在前面的例子中,我们考虑了这样的场景:我们知道某个人是男性,我们只是想知道这个人更喜欢棒球的概率。
在现实生活中有很多情况,我们知道一个变量的值,并且可以使用条件分布来找到另一个变量取某个值的概率。