如何在 r 中创建相关矩阵(4 个示例)
它提供了一种快速方法来了解数据集中变量之间存在的线性关系的强度。
在 R 中创建相关矩阵有四种常见方法:
方法一:cor函数(获得简单的相关系数矩阵)
cor(df)
方法2:rcorr函数(获取相关系数的p值)
library (Hmisc)
rcorr( as.matrix (df))
方法3:corrplot函数(可视化相关矩阵)
library (corplot)
corrplot(cor(df))
方法4:ggcorrplot函数(可视化相关矩阵)
library (ggcorrplot)
ggcorrplot(cor(df))
以下示例展示了如何在 R 中将每种方法与以下数据帧一起使用:
#create data frame
df <- data. frame (assists=c(4, 5, 5, 6, 7, 8, 8, 10),
rebounds=c(12, 14, 13, 7, 8, 8, 9, 13),
points=c(22, 24, 26, 26, 29, 32, 20, 14))
#view data frame
df
assists rebound points
1 4 12 22
2 5 14 24
3 5 13 26
4 6 7 26
5 7 8 29
6 8 8 32
7 8 9 20
8 10 13 14
示例 1:cor 函数
我们可以使用 R 基cor()函数创建一个相关矩阵,显示数据框中每个变量之间的相关系数:
#create correlation matrix
cor(df)
assists rebound points
assists 1.0000000 -0.2448608 -0.3295730
rebounds -0.2448608 1.0000000 -0.5220917
points -0.3295730 -0.5220917 1.0000000
沿表对角线的相关系数均等于 1,因为每个变量与其自身完全相关。
所有其他相关系数表示变量的不同成对组合之间的相关性。例如:
- 助攻和篮板之间的相关系数为-0.245 。
- 助攻数与得分之间的相关系数为-0.330 。
- 篮板数与得分之间的相关系数为-0.522 。
示例 2:rcorr 函数
我们可以使用 R 中Hmisc包中的rcorr()函数来创建一个相关矩阵,该矩阵显示数据框中每个变量之间的相关系数:
library (Hmisc)
#create matrix of correlation coefficients and p-values
rcorr( as.matrix (df))
assists rebound points
assists 1.00 -0.24 -0.33
rebounds -0.24 1.00 -0.52
points -0.33 -0.52 1.00
n=8
P
assists rebound points
assists 0.5589 0.4253
rebounds 0.5589 0.1844
points 0.4253 0.1844
第一个矩阵显示变量之间的相关系数,第二个矩阵显示相应的 p 值。
例如,助攻和篮板之间的相关系数为-0.24 ,该相关系数的 p 值为0.5589 。
这告诉我们,两个变量之间的相关性是负的,但由于 p 值不小于 0.05,所以这不是统计上显着的相关性。
示例 3:corrplot 函数
我们可以使用 R 中corrplot包中的corrplot()函数来可视化相关矩阵:
library (corplot)
#visualize correlation matrix
corrplot(cor(df))
相关矩阵中圆圈的颜色和大小帮助我们可视化每个变量之间的相关性。
例如,助攻和篮板变量相交的圆圈很小且呈浅红色,这告诉我们相关性较弱且呈负相关。
示例 4:corrplot 函数
我们可以使用 R 中ggcorrplot包中的ggcorrplot()函数来可视化相关矩阵:
library (ggcorrplot)
#visualize correlation matrix
ggcorrplot(cor(df))
相关矩阵中方块的颜色帮助我们可视化每个变量之间的相关性。
其他资源
以下教程解释了如何在 R 中执行其他常见任务: