现实生活中错误相关性的 5 个例子
在统计学中,虚假相关是指两个变量之间的相关性纯粹是偶然发生的,而一个变量实际上没有引起另一个变量。
这种类型的相关性是危险的,因为它有时可能表明一个变量会导致另一个变量,而实际上这种相关性纯粹是偶然存在的。
事实证明,变量之间的这种相关性在现实生活中经常发生。
以下示例分享了五个不同的真实世界错误相关示例。
示例 1:精通程度和票房收入
如果我们收集每年大学授予的硕士学位总数和每年产生的总票房收入的数据,我们会发现这两个变量是高度相关的。
这并不意味着颁发更多的硕士学位会导致每年的票房收入增加。
最可能的解释是,世界人口每年都在增加,这意味着每年授予更多的硕士学位,每年去看电影的人数也以大致相同的比例增加。
两个变量之间的相关性是虚假的。
示例2:麻疹病例与结婚率的关系
如果我们每年收集美国麻疹病例总数和结婚率的数据,我们会发现这两个变量高度相关。
这并不意味着减少麻疹病例会在某种程度上导致结婚率下降。这两个变量是独立的。
现代医学只是导致麻疹病例下降,并且由于各种原因每年结婚的人数减少。
两个变量之间的相关性是虚假的。
示例 3:高中毕业生与甜甜圈消费的关系
如果我们每年收集美国高中毕业生总数和甜甜圈消费总量的数据,我们会发现这两个变量高度相关。
这并不意味着高中毕业生人数的增加导致美国甜甜圈消费量的增加。
最可能的解释是,美国人口随着时间的推移而增加,这意味着拥有高中文凭的人数和消费的甜甜圈总数随着人口的增加而增加。
这是一种错误的相关性。
示例 4:视频游戏销售与核电生产
如果我们收集全球每年电子游戏的总销量和核电站产生的总能源的数据,我们会发现这两个变量是高度相关的。
这并不意味着视频游戏销量的增加会导致核电产量的增加。
相反,随着世界人口的逐年增加,越来越多的核电站被建造起来,越来越多的电子游戏被出售。
尽管这两个变量随着时间的推移不断增加,但其中一个变量并不是另一个变量的原因。两者之间的相关性是虚假的。
示例 5:游乐场收入对比煤矿工作
如果我们收集美国游乐场所产生的总收入和美国煤矿开采工作总数的数据,我们会发现这两个变量是高度相关的。
这并不意味着一个变量导致另一个变量减少。
相反,拱廊和煤矿多年来变得越来越不常见,这解释了为什么这两个变量以大致相同的速度下降。
两个变量之间的相关性是虚假的。
其他资源
以下教程提供了其他统计概念的真实示例: