什么是联合概率分布?
双向频率表是显示两个分类变量的频率(或“计数”)的表。
例如,下面的双向表显示了一项调查结果,该调查询问了 100 个人他们喜欢哪种运动:棒球、篮球或足球。
行显示受访者的性别,列表示他们选择的运动:
在此示例中,有两个变量:运动和性别。
联合概率分布简单地描述了给定个体对变量取两个特定值的概率。
“联合”这个词来自这样一个事实:我们对两件事同时发生的概率感兴趣。
例如,在总共 100 人中,有 13 人是男性,并选择棒球作为他们最喜欢的运动。
因此,我们可以说,给定个体是男性并选择棒球作为他们最喜欢的运动的联合概率是 13/100 = 0.13或13% 。
用数学符号写成:
P(性别 = 男性,运动 = 棒球)= 13/100 = 0.13 。
我们可以使用这个过程来计算整个联合概率分布:
- P(性别=男,运动=棒球)= 13/100 = 0.13
- P(性别=男,运动=篮球)= 15/100 = 0.15
- P(性别=男,运动=足球)= 20/100 = 0.20
- P(性别=女性,运动=棒球)= 23/100 = 0.23
- P(性别=女,运动=篮球)= 16/100 = 0.16
- P(性别=女性,运动=足球)= 13/100 = 0.13
请注意,概率之和等于1或100% 。
为什么使用联合概率分布?
联合概率分布很有用,因为我们经常收集两个变量(如运动和性别)的数据,并希望回答与这两个变量相关的问题。
例如,我们可能想了解人群中某个特定个体是男性并且更喜欢棒球作为他们最喜欢的运动的概率。
或者我们可能有兴趣了解某个特定个体是女性并且更喜欢足球作为其最喜欢的运动的概率。
联合概率分布可以帮助我们回答这些问题。
使用以下示例作为练习,以更好地理解联合概率分布。
实施例1
下面的双向表显示了一项调查的结果,该调查询问了 238 人他们喜欢哪种电影:
问题:某个人是女性并且喜欢戏剧作为她最喜欢的电影类型的概率是多少?
答案: P(性别=女,性别=戏剧)=58/238= 0.244 = 24.4%
实施例2
下面的双向表显示了一个班级 64 名学生根据学习时间的考试成绩:
问题:某个人学习 2 小时并获得 91 到 100 分之间的成绩的概率是多少?
答案: P(学习=2小时,分数=91-100)=3/64= 0.047 = 4.7%