Een correlatiematrix maken in r (4 voorbeelden)
Een correlatiematrix is een vierkante tabel die decorrelatiecoëfficiënten tussen variabelen in een dataset weergeeft.
Het biedt een snelle manier om de kracht van lineaire relaties tussen variabelen in een dataset te begrijpen.
Er zijn vier veelgebruikte manieren om een correlatiematrix in R te maken:
Methode 1: de cor-functie (om een eenvoudige matrix van correlatiecoëfficiënten te verkrijgen)
cor(df)
Methode 2: de rcorr-functie (om de p-waarden van de correlatiecoëfficiënten te verkrijgen)
library (Hmisc)
rcorr( as.matrix (df))
Methode 3: de corrplotfunctie (om de correlatiematrix te visualiseren)
library (corplot)
corrplot(cor(df))
Methode 4: de ggcorrplot-functie (om de correlatiematrix te visualiseren)
library (ggcorrplot)
ggcorrplot(cor(df))
De volgende voorbeelden laten zien hoe u elke methode kunt gebruiken met het volgende dataframe in R:
#create data frame
df <- data. frame (assists=c(4, 5, 5, 6, 7, 8, 8, 10),
rebounds=c(12, 14, 13, 7, 8, 8, 9, 13),
points=c(22, 24, 26, 26, 29, 32, 20, 14))
#view data frame
df
assists rebound points
1 4 12 22
2 5 14 24
3 5 13 26
4 6 7 26
5 7 8 29
6 8 8 32
7 8 9 20
8 10 13 14
Voorbeeld 1: De cor-functie
We kunnen de functie R base cor() gebruiken om een correlatiematrix te maken die de correlatiecoëfficiënten tussen elke variabele in ons dataframe toont:
#create correlation matrix
cor(df)
assists rebound points
assists 1.0000000 -0.2448608 -0.3295730
rebounds -0.2448608 1.0000000 -0.5220917
points -0.3295730 -0.5220917 1.0000000
De correlatiecoëfficiënten langs de diagonaal van de tabel zijn allemaal gelijk aan 1, omdat elke variabele perfect met zichzelf gecorreleerd is.
Alle andere correlatiecoëfficiënten geven de correlatie aan tussen verschillende paarsgewijze combinaties van variabelen. Bijvoorbeeld:
- De correlatiecoëfficiënt tussen assists en rebounds is -0,245 .
- De correlatiecoëfficiënt tussen assists en punten is -0,330 .
- De correlatiecoëfficiënt tussen rebounds en punten is -0,522 .
Voorbeeld 2: de rcorr-functie
We kunnen de functie rcorr() uit het Hmisc- pakket in R gebruiken om een correlatiematrix te maken die de correlatiecoëfficiënten tussen elke variabele in ons dataframe toont:
library (Hmisc)
#create matrix of correlation coefficients and p-values
rcorr( as.matrix (df))
assists rebound points
assists 1.00 -0.24 -0.33
rebounds -0.24 1.00 -0.52
points -0.33 -0.52 1.00
n=8
P
assists rebound points
assists 0.5589 0.4253
rebounds 0.5589 0.1844
points 0.4253 0.1844
De eerste matrix toont de correlatiecoëfficiënten tussen de variabelen en de tweede matrix toont de overeenkomstige p-waarden.
De correlatiecoëfficiënt tussen assists en rebounds is bijvoorbeeld -0,24 en de p-waarde van deze correlatiecoëfficiënt is 0,5589 .
Dit vertelt ons dat de correlatie tussen de twee variabelen negatief is, maar het is geen statistisch significante correlatie aangezien de p-waarde niet minder dan 0,05 is.
Voorbeeld 3: De corrplotfunctie
We kunnen de functie corrplot() uit het corrplot- pakket in R gebruiken om de correlatiematrix te visualiseren:
library (corplot)
#visualize correlation matrix
corrplot(cor(df))
De kleur en grootte van de cirkels in de correlatiematrix helpen ons de correlaties tussen elke variabele te visualiseren.
De cirkel waar de assists- en rebounds-variabelen elkaar kruisen is bijvoorbeeld klein en lichtrood, wat ons vertelt dat de correlatie zwak en negatief is.
Voorbeeld 4: De corrplotfunctie
We kunnen de functie ggcorrplot() uit het pakket ggcorrplot in R gebruiken om de correlatiematrix te visualiseren:
library (ggcorrplot)
#visualize correlation matrix
ggcorrplot(cor(df))
De kleur van de vierkanten in de correlatiematrix helpt ons de correlaties tussen elke variabele te visualiseren.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:
Hoe de Spearman-rangcorrelatie in R te berekenen
Hoe de gedeeltelijke correlatie in R te berekenen
Hoe de glijdende correlatie in R te berekenen