皮尔逊相关性的五个假设


皮尔逊相关系数(也称为“乘积矩相关系数”)衡量两个变量之间的线性关联。

它始终采用 -1 和 1 之间的值,其中:

  • -1 表示两个变量之间完全负线性相关
  • 0 表示两个变量之间不存在线性相关
  • 1 表示两个变量之间存在完全正线性相关

然而,在计算两个变量之间的皮尔逊相关系数之前,我们必须确保满足五个假设:

1. 测量水平:两个变量都应在区间比率水平上测量。

2.线性关系:两个变量之间必须存在线性关系。

3. 正态性:两个变量应近似呈正态分布。

4. 相关对:数据集中的每个观测值都必须有一对值。

5. 无异常值:数据集中不应存在极端异常值。

在本文中,我们对每个假设以及如何确定假设是否满足进行了解释。

假设1:测量水平

要计算两个变量之间的皮尔逊相关系数,必须在区间比率水平上测量两个变量。

下图简要说明了可以测量变量的四个级别:

以下是可以在区间尺度上测量的变量的一些示例:

  • 温度:以华氏度或摄氏度为单位测量
  • 信用评分:从 300 到 850
  • SAT 成绩: 400 至 1,600 分

以下是一些可以在比率尺度上测量的变量的示例:

  • 高度:以厘米、英寸、英尺等为单位进行测量。
  • 重量:以公斤、磅等计量单位。
  • 长度:以厘米、英寸、英尺等为单位测量。

如果变量是按顺序测量的,那么您需要计算它们之间的Spearman 相关系数

相关:测量级别:名义、序数、间隔和比率

假设2:线性关系

要计算两个变量之间的皮尔逊相关系数,两个变量之间必须存在线性关系。

检验这一假设的最简单方法是简单地创建两个变量的散点图。如果图上的点近似呈直线,则存在线性关系:

但是,如果点随机分散在图中或具有某种其他类型的关系(例如二次关系),则变量之间不存在线性关系:

在这种情况下,皮尔逊相关系数将无法充分捕捉变量之间的关系。

假设3:正态性

Pearson 相关系数还假设两个变量近似呈正态分布

您可以通过为每个变量创建直方图或 QQ 图来直观地验证此假设。

1. 直方图

如果数据集的直方图大致呈钟形,则该数据很可能呈正态分布。

2.QQ乐园

QQ 图是“分位数-分位数”的缩写,是一种沿 x 轴显示理论分位数(即数据服从正态分布时的位置)和沿 y 轴显示样本分位数的图。 (即您的数据实际所在的位置)。

如果数据值遵循形成 45 度角的大致直线,则假定数据呈正态分布。

您还可以执行正式的统计测试来确定变量是否呈正态分布。

如果检验的p 值低于一定的显着性水平(例如 α = 0.05),则您有足够的证据表明数据呈正态分布。

常用来检验正态性的统计检验有以下三种:

1. 雅克-贝拉测试

2. 夏皮罗-威尔克检验

3. 柯尔莫哥洛夫-斯米尔诺夫检验

假设 4:相关对

皮尔逊相关系数还假设数据集中的每个观测值都必须有一对值。

这个假设很容易验证。例如,如果您要计算体重和身高之间的相关性,只需验证数据集中的每个观测值是否都有体重测量值和身高测量值。

假设 5:没有异常值

皮尔逊相关系数还假设数据集中不存在极端异常值,因为异常值强烈影响相关系数的计算。

为了说明这一点,请考虑以下数据集:

X 和 Y 之间的 Pearson 相关系数为0.949

但是,假设数据集中有一个异常值:

X 和 Y 之间的 Pearson 相关系数现在为0.711

异常值会显着改变两个变量之间的皮尔逊相关系数。在这种情况下,从数据集中删除异常值可能是有意义的。

相关:完整指南:何时删除数据中的异常值

其他资源

以下教程提供有关 Pearson 相关性的更多信息:

皮尔逊相关系数简介
如何以 APA 格式报告 Pearson 相关性
如何手动计算皮尔逊相关系数

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注