什么被认为是“强”;相关性?
在统计学中,我们经常试图了解两个变量如何相互关联。例如,我们可能想知道:
- 学生的学习时数和考试成绩之间有什么关系?
- 室外温度与餐车销售的蛋卷冰淇淋数量之间有什么关系?
- 特定企业的营销支出与总收入之间有何关系?
在每个场景中,我们都试图理解两个不同变量之间的关系。
在统计学中,量化两个变量之间关系的最常见方法之一是使用皮尔逊相关系数,它是两个变量之间线性关联的度量。它的值介于 -1 和 1 之间,其中:
- -1 表示两个变量之间完全负线性相关
- 0 表示两个变量之间不存在线性相关
- 1 表示两个变量之间存在完全正线性相关
该数字通常表示为r ,可以帮助我们了解两个变量之间关系的强度。 r距离零越远,两个变量之间的关系越强。
需要注意的是,两个变量可以具有强正相关性或强负相关性。
强正相关:当一个变量的值增加时,另一个变量的值也会以同样的方式增加。例如,学生花在学习上的时间越多,他们的考试成绩往往就越高。学习时间和考试成绩有很强的正相关性。
强负相关:当一个变量的值增加时,另一个变量的值趋于减少。例如,母鸡年龄越大,产下的鸡蛋就越少。母鸡日龄与产蛋量有很强的负相关关系。
下表显示了根据r值解释两个变量之间关系强度的经验法则:
r的绝对值 | 关系的强度 |
---|---|
r < 0.25 | 没有关系 |
0.25 < r < 0.5 | 关系较弱 |
0.5 < r < 0.75 | 适度的关系 |
r > 0.75 | 牢固的关系 |
如果r的绝对值大于0.75 ,则认为两个变量之间的相关性较强。然而,“强”相关性的定义因领域而异。
医疗的
例如,在医学领域,“强”关系的定义往往要低得多。如果服用某种药物和减少心脏病发作之间的关系为r = 0.3,这在其他领域可能被认为是“弱正”关系,但在医学中,它足够重要,值得服用该药物来减少心脏病发作的机会。心脏病发作。
人力资源
在人力资源等另一个领域,也可以更频繁地使用较低的相关性。例如,大学成绩与工作绩效之间的相关性约为r = 0.16 。这个比例相当低,但它足够重要,公司至少应该在面试过程中考虑这一点。
技术
在技术这样的领域,变量之间的相关性在某些情况下可能需要更高才能被认为是“强”的。例如,如果一家公司制造了一辆自动驾驶汽车,并且该汽车的转向决策与发生事故的概率之间的相关性为r = 0.95 ,那么对于该汽车来说,这可能太低了,不能被认为是安全的,因为自动驾驶汽车的r = 0.95。一个错误的决定可能是致命的。
查看相关性
无论您从事哪个领域,创建您正在研究的两个变量的散点图都会很有帮助,这样您至少可以直观地检查它们之间的关系。
例如,假设我们有以下数据集,显示 12 个人的身高和体重:
仅通过查看原始数据来理解这两个变量之间的关系有点困难。然而,如果我们创建一个 x 轴为高度、y 轴为体重的散点图,则更容易理解这种关系:
两个变量之间显然存在正相关关系。
创建点云是一个好主意,还有两个原因:
(1) 散点图可让您识别影响相关性的异常值。
极端异常值可以显着改变皮尔逊相关系数。考虑下面的示例,其中变量X和Y的 Pearson 相关系数为r = 0.00 。
但现在假设我们在数据集中有一个异常值:
该异常值导致相关性为r = 0.878 。这个单个数据点完全改变了相关性,并使变量X和Y之间看起来好像存在很强的关系,而实际上并不存在。
(2) 散点图可以帮助您识别变量之间的非线性关系。
皮尔逊相关系数只是告诉我们两个变量是否线性相关。但即使皮尔逊相关系数告诉我们两个变量不相关,它们仍然可能存在某种非线性关系。这是创建散点图有用的另一个原因。
例如,考虑下面变量X和Y之间的散点图,其中它们的相关性为r = 0.00 。
这些变量显然不具有线性关系,但它们确实具有非线性关系:y 值只是 x 值的平方。单独的相关系数无法检测出这种关系,但散点图可以。
结论
总之:
- 一般来说,大于 0.75 的相关性被认为是两个变量之间的“强”相关性。
- 然而,这个经验法则可能因地区而异。例如,与技术领域相比,医学领域中弱得多的相关性可能被认为是强相关性。最好使用特定领域的专业知识来决定什么被认为是强大的。
- 当使用相关性描述两个变量之间的关系时,创建散点图也很有帮助,这样您就可以识别数据集中的异常值以及潜在的非线性关系。
其他资源
什么被认为是“弱”相关性?
相关矩阵计算器
如何读取相关矩阵