Stata 中的相关性:pearson、spearman 和 kendall
在统计学中,相关性是指两个变量之间关系的强度和方向。相关系数的值范围为 -1 到 1,其中 -1 表示完全负关系,0 表示没有关系,1 表示完全正关系。
衡量相关性的常用方法有以下三种:
皮尔逊相关性:用于衡量两个连续变量之间的相关性。 (例如身高和体重)
Spearman相关性:用于衡量两个分类变量之间的相关性。 (例如,学生数学考试成绩的排名与班级中科学考试成绩的排名)
Kendall’s Correlation:当您想使用 Spearman 相关性但样本量较小且相关排名较多时使用。
本教程介绍如何在 Stata 中查找三种类型的相关性。
加载数据中
对于以下每个示例,我们将使用名为auto 的数据集。您可以通过在命令框中键入以下内容来加载此数据集:
使用https://www.stata-press.com/data/r13/auto
我们可以通过在命令框中键入以下内容来快速概览数据集:
总结一下
我们可以看到数据集中共有 12 个变量。
如何在Stata中找到皮尔逊相关性
我们可以使用pwcorr命令找到重量和长度变量之间的皮尔逊相关系数:
pwcorr 重量 长度
这两个变量之间的 Pearson 相关系数为0.9460 。为了确定这个相关系数是否显着,我们可以使用sig命令找到 p 的值:
pwcorr 重量长度,sig
p 值为0.000 。由于该值小于 0.05,因此这两个变量之间的相关性具有统计显着性。
要查找多个变量的 Pearson 相关系数,只需在pwcorr命令后键入变量列表:
pwcorr 重量长度位移,sig
以下是如何解释结果:
- 体重和长度之间的皮尔逊相关性 = 0.9460 | p 值 = 0.000
- 重量和位移之间的皮尔逊相关性 = 0.8949 | p 值 = 0.000
- 位移和长度之间的 Pearson 相关性 = 0.8351 | p 值 = 0.000
如何在 Stata 中查找 Spearman 相关性
我们可以使用spearman命令找到变量trunk和rep78之间的Spearman相关系数:
长矛树干rep78
以下是如何解释结果:
- 观测值数量:这是用于计算 Spearman 相关系数的成对观测值的数量。由于rep78变量缺少一些值,Stata仅使用每对69个观测值(而不是全部74个)。
- Spearman’s Rho:这是 Spearman 相关系数。在这种情况下,它是-0.2235,这表明两个变量之间存在负相关。随着其中一个的增加,另一个趋于减少。
- 概率 > |t| :这是与假设检验相关的 p 值。在本例中,p 值为 0.0649,这表明在 α = 0.05 时两个变量之间不存在统计显着相关性。
我们只需在Spearman命令后输入更多变量即可找到多个变量的 Spearman 相关系数。我们可以使用stats(rho p)命令找到每个成对相关性的相关系数和相应的 p 值:
斯皮尔曼主干rep78 gear_ratio,统计数据(rho p)
以下是如何解释结果:
- trunk 和rep78 之间的斯皮尔曼相关性 = -0.2235 | p 值 = 0.0649
- 躯干和 gear_ratio 之间的 Spearman 相关性 = -0.5187 | p 值 = 0.0000
- gear_ratio 和rep78 之间的斯皮尔曼相关性 = 0.4275 | p 值 = 0.0002
如何在 Stata 中查找 Kendall 相关性
我们可以使用ktau命令找到trunk和rep78变量之间的Kendall相关系数:
ktau 干线rep78
以下是如何解释结果:
- 观测值数量:这是用于计算肯德尔相关系数的成对观测值的数量。由于rep78变量缺少一些值,Stata仅使用每对69个观测值(而不是全部74个)。
- Kendall’s Tau-b:这是两个变量之间的 Kendall 相关系数。我们通常使用这个值而不是 tau-a,因为 tau-b 在平局的情况下会进行调整。在这种情况下,tau-b = -0.1752,表明两个变量之间呈负相关。
- 概率 > |z| :这是与假设检验相关的 p 值。在本例中,p 值为 0.0662,这表明在 α = 0.05 时两个变量之间不存在统计显着相关性。
我们只需在ktau命令后输入更多变量即可找到多个变量的肯德尔相关系数。我们可以使用stats(taub p)命令找到每个成对相关性的相关系数和相应的 p 值:
ktau trunk rep78 gear_ratio,统计数据(taub p)
- trunk 和rep78 之间的肯德尔相关性 = -0.1752 | p 值 = 0.0662
- Kendall 的 trunk 和 gear_ratio 之间的相关性 = -0.3753 | p 值 = 0.0000
- gear_ratio 和rep78 之间的肯德尔相关性 = 0.3206 | p 值 = 0.0006