Como calcular a correlação entre múltiplas variáveis em r


Uma forma de quantificar a relação entre duas variáveis é utilizar o coeficiente de correlação de Pearson , que é uma medida da associação linear entre duas variáveis . Sempre assume um valor entre -1 e 1 onde:

  • -1 indica uma correlação linear perfeitamente negativa entre duas variáveis
  • 0 indica nenhuma correlação linear entre duas variáveis
  • 1 indica uma correlação linear perfeitamente positiva entre duas variáveis

Este tutorial explica como calcular a correlação entre múltiplas variáveis em R, usando o seguinte quadro de dados como exemplo:

 #create data frame
df <- data.frame(a <- c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23),
                 b <- c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43),
                 c <- c(13, 14, 14, 14, 15, 17, 18, 19, 22, 20, 24, 26),
                 d <- c(6, 6, 7, 8, 8, 8, 7, 6, 5, 3, 3, 2))

Exemplo 1: Correlação entre duas variáveis

O código a seguir mostra como calcular a correlação entre duas variáveis no quadro de dados:

 cor(df$a, df$b)

[1] 0.9279869

Exemplo 2: Correlação entre diversas variáveis

O código a seguir mostra como calcular a correlação entre três variáveis no quadro de dados:

 cor(df[, c(' a ', ' b ', ' c ')])

          ABC
a 1.0000000 0.9279869 0.9604329
b 0.9279869 1.0000000 0.8942139
c 0.9604329 0.8942139 1.0000000

A forma de interpretar o resultado é a seguinte:

  • A correlação entre a e b é 0,9279869.
  • A correlação entre a e c é 0,9604329.
  • A correlação entre b e c é 0,8942139.

Exemplo 3: Correlação entre todas as variáveis

O código a seguir mostra como calcular a correlação entre todas as variáveis em um quadro de dados:

 cor(df)

           abcd
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0.9279869 1.0000000 0.8942139 -0.7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000

Exemplo 4: Correlação apenas entre variáveis numéricas

O código a seguir mostra como calcular a correlação apenas entre variáveis numéricas em um quadro de dados:

 cor(df[, unlist ( lapply (df, is. numeric ))])

           abcd
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0.9279869 1.0000000 0.8942139 -0.7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000

Exemplo 5: Visualizando correlações

O código a seguir mostra como criar um gráfico de pares – um tipo de gráfico que permite visualizar o relacionamento entre cada combinação de variáveis de pares:

 #load psych package
library(psych)

#create pairs plot
peers. panels (df)

Recursos adicionais

Como calcular a correlação parcial em R
Como calcular a correlação ponto-bisserial em R
Como calcular a correlação deslizante em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *