什么被认为是“弱者”;相关性?
在统计学中,我们经常试图了解两个变量如何相互关联。例如,我们可能想知道:
- 学生的学习时数和考试成绩之间有什么关系?
- 室外温度与餐车销售的冰淇淋数量之间有什么关系?
- 广告支出与特定企业赚取的总收入之间有什么关系?
在每个场景中,我们都想了解两个变量之间的关系。
量化两个变量之间关系的最常见方法之一是使用皮尔逊相关系数,它是两个变量之间线性关联的度量。
它始终采用 -1 和 1 之间的值,其中:
- -1 表示两个变量之间完全负线性相关
- 0 表示两个变量之间不存在线性相关
- 1 表示两个变量之间存在完全正线性相关
该数字通常表示为r ,可以帮助我们了解两个变量之间关系的强度。 r越接近零,两个变量之间的关系越弱。
需要注意的是,两个变量可以具有弱正相关性或弱负相关性。
弱正相关:当一个变量增加时,另一个变量也往往会增加,但只是微弱或不可靠。
低负相关:当一个变量增加时,另一个变量往往会减少,但只是微弱或不可靠。
下表显示了根据r值解释两个变量之间关系强度的经验法则:
r的绝对值 | 关系的强度 |
---|---|
r < 0.25 | 没有关系 |
0.25 < r < 0.5 | 关系较弱 |
0.5 < r < 0.75 | 适度的关系 |
r > 0.75 | 牢固的关系 |
如果r的绝对值在 0.25 和 0.5 之间,则认为两个变量之间的相关性较低。
然而,“弱”相关性的定义因领域而异。
医疗的
在医学领域,“弱”关系的定义通常要低得多。如果服用某种药物与减少心脏病发作之间的关系为r = 0.2,这在其他领域可能会被认为“没有关系”,但在医学上它足够重要,值得服用该药物来降低心脏病发作的风险。心脏病发作。
人力资源
在人力资源等领域,较低的相关性也更常用。例如,大学 GPA 和工作绩效之间的相关性已显示约为r = 0.16 。这个比例相当低,但它足够重要,公司至少应该在面试过程中考虑这一点。
技术
在技术领域,变量之间的相关性可能需要高得多才能被视为“低”。例如,如果一家公司制造了一辆自动驾驶汽车,并且该汽车的转弯决策与避免事故的概率之间的相关性为r = 0.95 ,那么这可以被认为是“弱”相关性,并且对于汽车来说可能太弱了被认为是安全的,因为错误的决定可能是致命的。
使用散点图可视化相关性
在计算两个变量之间的相关系数时,创建散点图来可视化相关性也很有用。
特别是,点云具有两个优点:
1. 散点图可以帮助您识别影响相关系数的异常值。
极端异常值会对相关系数产生很大影响。考虑下面的示例,其中变量X和Y的 Pearson 相关系数为r = 0.91 。
现在想象我们将第一个数据点更改得更大。相关系数突然变为r = 0.29 。
该单个数据点将相关系数从强正关系更改为弱正关系。
(2) 散点图可以帮助您识别变量之间的非线性关系。
皮尔逊相关系数只是告诉我们两个变量是否线性相关。但即使皮尔逊相关系数告诉我们两个变量不相关,它们仍然可能存在某种非线性关系。
例如,考虑下面变量X和Y之间的散点图,其中它们的相关性为r = 0.00 。
这些变量显然不具有线性关系,但它们确实具有非线性关系:y 值只是 x 值的平方。
单独的相关系数无法检测出这种关系,但散点图可以。
结论
总之:
1.一般来说,相关系数在0.25到0.5之间被认为是两个变量之间的“弱”相关性。
2.此经验法则可能因地区而异。例如,与技术领域相比,医疗领域的相关性低得多,可能会被认为较弱。请务必利用您的主题专业知识来确定什么被认为是低相关性。
3.当使用相关系数描述两个变量之间的关系时,创建散点图也很有帮助,以便您可以识别数据集中的异常值以及潜在的非线性关系。
其他资源
什么被认为是“强”相关性?
相关矩阵计算器
相关性对比协会:有什么区别?