Como criar e interpretar gráficos de pares em r
Um gráfico de pares é uma matriz de gráfico de dispersão que permite compreender a relação de pares entre diferentes variáveis em um conjunto de dados.
Felizmente, é fácil criar um gráfico de pares em R usando a função pairs() . Este tutorial fornece vários exemplos de uso prático desta função.
Exemplo 1: Gráfico de pares de todas as variáveis
O código a seguir demonstra como criar um gráfico de pares de bases para todas as variáveis em um quadro de dados em R:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
A forma de interpretar a matriz é a seguinte:
- Os nomes das variáveis são exibidos ao longo das caixas diagonais.
- Todas as outras caixas exibem um gráfico de dispersão da relação entre cada combinação de variáveis aos pares. Por exemplo, a área no canto superior direito da matriz exibe um gráfico de dispersão de valores para var1 e var3 . A caixa central esquerda exibe um gráfico de dispersão de valores para var1 e var2 e assim por diante.
Este gráfico único nos dá uma ideia da relação entre cada par de variáveis em nosso conjunto de dados. Por exemplo, var1 e var2 parecem estar positivamente correlacionados, enquanto var1 e var3 parecem ter pouca ou nenhuma correlação.
Exemplo 2: Plotando Pares de Variáveis Específicas
O código a seguir demonstra como criar um gráfico de pares de bases apenas para as duas primeiras variáveis em um conjunto de dados:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Exemplo 3: Alterar a estética de um gráfico de pares
O código a seguir demonstra como alterar a estética de um gráfico de pares, incluindo título, cor e rótulos:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Exemplo 4: Obtendo correlações com ggpairs
Você também pode obter o coeficiente de correlação de Pearson entre variáveis usando a função ggpairs() da biblioteca GGally. O código a seguir demonstra como usar esta função:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
A forma de interpretar esta matriz é a seguinte:
- Os nomes das variáveis são exibidos nas bordas externas da matriz.
- As caixas ao longo das diagonais exibem o gráfico de densidade para cada variável.
- As caixas no canto inferior esquerdo exibem o gráfico de dispersão entre cada variável.
- As caixas no canto superior direito exibem o coeficiente de correlação de Pearson entre cada variável. Por exemplo, a correlação entre var1 e var2 é 0,425 .
A vantagem de usar ggpairs() sobre a função R pairs() básica é que você pode obter mais informações sobre as variáveis. Especificamente, você pode ver o coeficiente de correlação entre cada combinação de variáveis em pares, bem como um gráfico de densidade para cada variável individual.
Você pode encontrar a documentação completa da função ggpairs() aqui .