Hoe de correlatie tussen meerdere variabelen in r te berekenen


Eén manier om de relatie tussen twee variabelen te kwantificeren is door de Pearson-correlatiecoëfficiënt te gebruiken, een maatstaf voor de lineaire associatie tussen twee variabelen . Er is altijd een waarde tussen -1 en 1 nodig, waarbij:

  • -1 geeft een perfect negatieve lineaire correlatie aan tussen twee variabelen
  • 0 geeft aan dat er geen lineaire correlatie is tussen twee variabelen
  • 1 geeft een perfect positieve lineaire correlatie aan tussen twee variabelen

In deze tutorial wordt uitgelegd hoe u de correlatie tussen meerdere variabelen in R kunt berekenen, met behulp van het volgende dataframe als voorbeeld:

 #create data frame
df <- data.frame(a <- c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23),
                 b <- c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43),
                 c <- c(13, 14, 14, 14, 15, 17, 18, 19, 22, 20, 24, 26),
                 d <- c(6, 6, 7, 8, 8, 8, 7, 6, 5, 3, 3, 2))

Voorbeeld 1: Correlatie tussen twee variabelen

De volgende code laat zien hoe u de correlatie tussen twee variabelen in het dataframe berekent:

 cor(df$a, df$b)

[1] 0.9279869

Voorbeeld 2: Correlatie tussen verschillende variabelen

De volgende code laat zien hoe u de correlatie tussen drie variabelen in het dataframe berekent:

 cor(df[, c(' a ', ' b ', ' c ')])

          ABC
a 1.0000000 0.9279869 0.9604329
b 0.9279869 1.0000000 0.8942139
c 0.9604329 0.8942139 1.0000000

De manier om het resultaat te interpreteren is als volgt:

  • De correlatie tussen a en b is 0,9279869.
  • De correlatie tussen a en c is 0,9604329.
  • De correlatie tussen b en c is 0,8942139.

Voorbeeld 3: Correlatie tussen alle variabelen

De volgende code laat zien hoe u de correlatie tussen alle variabelen in een dataframe berekent:

 cor(df)

           abcd
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0.9279869 1.0000000 0.8942139 -0.7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000

Voorbeeld 4: Correlatie tussen alleen numerieke variabelen

De volgende code laat zien hoe u de correlatie tussen alleen numerieke variabelen in een dataframe kunt berekenen:

 cor(df[, unlist ( lapply (df, is. numeric ))])

           abcd
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0.9279869 1.0000000 0.8942139 -0.7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000

Voorbeeld 5: Correlaties visualiseren

De volgende code laat zien hoe u een paarsgewijze plot maakt: een type plot waarmee u de relatie tussen elke paarsgewijze combinatie van variabelen kunt visualiseren:

 #load psych package
library(psych)

#create pairs plot
peers. panels (df)

Aanvullende bronnen

Hoe de gedeeltelijke correlatie in R te berekenen
Hoe de punt-biseriële correlatie in R te berekenen
Hoe de glijdende correlatie in R te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert