什么被认为是“强”;相关性?


在统计学中,我们经常试图了解两个变量如何相互关联。例如,我们可能想知道:

  • 学生的学习时数和考试成绩之间有什么关系?
  • 室外温度与餐车销售的蛋卷冰淇淋数量之间有什么关系?
  • 特定企业的营销支出与总收入之间有何关系?

在每个场景中,我们都试图理解两个不同变量之间的关系。

在统计学中,量化两个变量之间关系的最常见方法之一是使用皮尔逊相关系数,它是两个变量之间线性关联的度量它的值介于 -1 和 1 之间,其中:

  • -1 表示两个变量之间完全负线性相关
  • 0 表示两个变量之间不存在线性相关
  • 1 表示两个变量之间存在完全正线性相关

该数字通常表示为r ,可以帮助我们了解两个变量之间关系的强度。 r距离零越远,两个变量之间的关系越强

需要注意的是,两个变量可以具有强相关性或强相关性。

强正相关:当一个变量的值增加时,另一个变量的值也会以同样的方式增加。例如,学生花在学习上的时间越多,他们的考试成绩往往就越高。学习时间和考试成绩有很强的正相关性。

强负相关:当一个变量的值增加时,另一个变量的值趋于减少。例如,母鸡年龄越大,产下的鸡蛋就越少。母鸡日龄与产蛋量有很强的负相关关系。

下表显示了根据r值解释两个变量之间关系强度的经验法则:

r的绝对值 关系的强度
r < 0.25 没有关系
0.25 < r < 0.5 关系较弱
0.5 < r < 0.75 适度的关系
r > 0.75 牢固的关系

如果r的绝对值大于0.75 ,则认为两个变量之间的相关性较强。然而,“强”相关性的定义因领域而异。

医疗的

例如,在医学领域,“强”关系的定义往往要低得多。如果服用某种药物和减少心脏病发作之间的关系为r = 0.3,这在其他领域可能被认为是“弱正”关系,但在医学中,它足够重要,值得服用该药物来减少心脏病发作的机会。心脏病发作。

人力资源

在人力资源等另一个领域,也可以更频繁地使用较低的相关性。例如,大学成绩与工作绩效之间的相关性约为r = 0.16 。这个比例相当低,但它足够重要,公司至少应该在面试过程中考虑这一点。

技术

在技术这样的领域,变量之间的相关性在某些情况下可能需要更高才能被认为是“强”的。例如,如果一家公司制造了一辆自动驾驶汽车,并且该汽车的转向决策与发生事故的概率之间的相关性为r = 0.95 ,那么对于该汽车来说,这可能太低了,不能被认为是安全的,因为自动驾驶汽车的r = 0.95。一个错误的决定可能是致命的。

查看相关性

无论您从事哪个领域,创建您正在研究的两个变量的散点图都会很有帮助,这样您至少可以直观地检查它们之间的关系。

例如,假设我们有以下数据集,显示 12 个人的身高和体重:

仅通过查看原始数据来理解这两个变量之间的关系有点困难。然而,如果我们创建一个 x 轴为高度、y 轴为体重的散点图,则更容易理解这种关系:

两个变量之间显然存在正相关关系。

创建点云是一个好主意,还有两个原因:

(1) 散点图可让您识别影响相关性的异常值。

极端异常值可以显着改变皮尔逊相关系数。考虑下面的示例,其中变量XY的 Pearson 相关系数为r = 0.00

但现在假设我们在数据集中有一个异常值:

该异常值导致相关性为r = 0.878 。这个单个数据点完全改变了相关性,并使变量XY之间看起来好像存在很强的关系,而实际上并不存在。

(2) 散点图可以帮助您识别变量之间的非线性关系。

皮尔逊相关系数只是告诉我们两个变量是否线性相关。但即使皮尔逊相关系数告诉我们两个变量不相关,它们仍然可能存在某种非线性关系。这是创建散点图有用的另一个原因。

例如,考虑下面变量XY之间的散点图,其中它们的相关性为r = 0.00

这些变量显然不具有线性关系,但它们确实具有非线性关系:y 值只是 x 值的平方。单独的相关系数无法检测出这种关系,但散点图可以。

结论

总之:

  • 一般来说,大于 0.75 的相关性被认为是两个变量之间的“强”相关性。
  • 然而,这个经验法则可能因地区而异。例如,与技术领域相比,医学领域中弱得多的相关性可能被认为是强相关性。最好使用特定领域的专业知识来决定什么被认为是强大的。
  • 当使用相关性描述两个变量之间的关系时,创建散点图也很有帮助,这样您就可以识别数据集中的异常值以及潜在的非线性关系。

其他资源

什么被认为是“弱”相关性?
相关矩阵计算器
如何读取相关矩阵

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注