Come creare e interpretare i grafici di coppia in r
Un grafico a coppie è una matrice di grafico a dispersione che consente di comprendere la relazione a coppie tra le diverse variabili in un set di dati.
Fortunatamente, è facile creare un grafico a coppie in R utilizzando la funzionepairs() . Questo tutorial fornisce diversi esempi di utilizzo pratico di questa funzione.
Esempio 1: grafico a coppie di tutte le variabili
Il codice seguente dimostra come creare un grafico delle coppie di basi per tutte le variabili in un frame di dati in R:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
Il modo di interpretare la matrice è il seguente:
- I nomi delle variabili vengono visualizzati lungo le caselle diagonali.
- Tutte le altre caselle mostrano un grafico a dispersione della relazione tra ciascuna combinazione di variabili a coppie. Ad esempio, l’area nell’angolo in alto a destra della matrice mostra un grafico a dispersione di valori per var1 e var3 . La casella centrale a sinistra mostra un grafico a dispersione di valori per var1 e var2 e così via.
Questo singolo grafico ci dà un’idea della relazione tra ciascuna coppia di variabili nel nostro set di dati. Ad esempio, var1 e var2 sembrano essere correlati positivamente mentre var1 e var3 sembrano avere poca o nessuna correlazione.
Esempio 2: tracciare coppie di variabili specifiche
Il codice seguente mostra come creare un grafico delle coppie di basi solo per le prime due variabili in un set di dati:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Esempio 3: modificare l’estetica di un grafico a coppie
Il codice seguente mostra come modificare l’estetica di un grafico a coppie, inclusi titolo, colore ed etichette:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Esempio 4: ottenere correlazioni con ggpairs
Puoi anche ottenere il coefficiente di correlazione di Pearson tra le variabili utilizzando la funzione ggpairs() dalla libreria GGally. Il codice seguente illustra come utilizzare questa funzione:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
Il modo di interpretare questa matrice è il seguente:
- I nomi delle variabili vengono visualizzati sui bordi esterni della matrice.
- I riquadri lungo le diagonali mostrano il grafico della densità per ciascuna variabile.
- Le caselle nell’angolo in basso a sinistra mostrano il grafico a dispersione tra ciascuna variabile.
- Le caselle nell’angolo in alto a destra mostrano il coefficiente di correlazione di Pearson tra ciascuna variabile. Ad esempio, la correlazione tra var1 e var2 è 0,425 .
Il vantaggio di utilizzare ggpairs() rispetto alla funzione di base Rpairs () è che puoi ottenere maggiori informazioni sulle variabili. Nello specifico, puoi vedere il coefficiente di correlazione tra ciascuna combinazione di variabili a coppie, nonché un grafico della densità per ogni singola variabile.
Puoi trovare la documentazione completa per la funzione ggpairs() qui .