Como criar e interpretar gráficos de pares em r


Um gráfico de pares é uma matriz de gráfico de dispersão que permite compreender a relação de pares entre diferentes variáveis em um conjunto de dados.

Felizmente, é fácil criar um gráfico de pares em R usando a função pairs() . Este tutorial fornece vários exemplos de uso prático desta função.

Exemplo 1: Gráfico de pares de todas as variáveis

O código a seguir demonstra como criar um gráfico de pares de bases para todas as variáveis em um quadro de dados em R:

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df) 

A forma de interpretar a matriz é a seguinte:

  • Os nomes das variáveis são exibidos ao longo das caixas diagonais.
  • Todas as outras caixas exibem um gráfico de dispersão da relação entre cada combinação de variáveis aos pares. Por exemplo, a área no canto superior direito da matriz exibe um gráfico de dispersão de valores para var1 e var3 . A caixa central esquerda exibe um gráfico de dispersão de valores para var1 e var2 e assim por diante.

Este gráfico único nos dá uma ideia da relação entre cada par de variáveis em nosso conjunto de dados. Por exemplo, var1 e var2 parecem estar positivamente correlacionados, enquanto var1 e var3 parecem ter pouca ou nenhuma correlação.

Exemplo 2: Plotando Pares de Variáveis Específicas

O código a seguir demonstra como criar um gráfico de pares de bases apenas para as duas primeiras variáveis em um conjunto de dados:

 #create pairs plot for var1 and var2 only
even(df[, 1:2]) 

Traçando pares de variáveis específicos em R

Exemplo 3: Alterar a estética de um gráfico de pares

O código a seguir demonstra como alterar a estética de um gráfico de pares, incluindo título, cor e rótulos:

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title 

Traçando pares personalizados em R

Exemplo 4: Obtendo correlações com ggpairs

Você também pode obter o coeficiente de correlação de Pearson entre variáveis usando a função ggpairs() da biblioteca GGally. O código a seguir demonstra como usar esta função:

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

Função ggpairs no exemplo R

A forma de interpretar esta matriz é a seguinte:

  • Os nomes das variáveis são exibidos nas bordas externas da matriz.
  • As caixas ao longo das diagonais exibem o gráfico de densidade para cada variável.
  • As caixas no canto inferior esquerdo exibem o gráfico de dispersão entre cada variável.
  • As caixas no canto superior direito exibem o coeficiente de correlação de Pearson entre cada variável. Por exemplo, a correlação entre var1 e var2 é 0,425 .

A vantagem de usar ggpairs() sobre a função R pairs() básica é que você pode obter mais informações sobre as variáveis. Especificamente, você pode ver o coeficiente de correlação entre cada combinação de variáveis em pares, bem como um gráfico de densidade para cada variável individual.

Você pode encontrar a documentação completa da função ggpairs() aqui .

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *