Come creare e interpretare i grafici di coppia in r


Un grafico a coppie è una matrice di grafico a dispersione che consente di comprendere la relazione a coppie tra le diverse variabili in un set di dati.

Fortunatamente, è facile creare un grafico a coppie in R utilizzando la funzionepairs() . Questo tutorial fornisce diversi esempi di utilizzo pratico di questa funzione.

Esempio 1: grafico a coppie di tutte le variabili

Il codice seguente dimostra come creare un grafico delle coppie di basi per tutte le variabili in un frame di dati in R:

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df) 

Il modo di interpretare la matrice è il seguente:

  • I nomi delle variabili vengono visualizzati lungo le caselle diagonali.
  • Tutte le altre caselle mostrano un grafico a dispersione della relazione tra ciascuna combinazione di variabili a coppie. Ad esempio, l’area nell’angolo in alto a destra della matrice mostra un grafico a dispersione di valori per var1 e var3 . La casella centrale a sinistra mostra un grafico a dispersione di valori per var1 e var2 e così via.

Questo singolo grafico ci dà un’idea della relazione tra ciascuna coppia di variabili nel nostro set di dati. Ad esempio, var1 e var2 sembrano essere correlati positivamente mentre var1 e var3 sembrano avere poca o nessuna correlazione.

Esempio 2: tracciare coppie di variabili specifiche

Il codice seguente mostra come creare un grafico delle coppie di basi solo per le prime due variabili in un set di dati:

 #create pairs plot for var1 and var2 only
even(df[, 1:2]) 

Tracciare coppie di variabili specifiche in R

Esempio 3: modificare l’estetica di un grafico a coppie

Il codice seguente mostra come modificare l’estetica di un grafico a coppie, inclusi titolo, colore ed etichette:

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title 

Tracciare coppie personalizzate in R

Esempio 4: ottenere correlazioni con ggpairs

Puoi anche ottenere il coefficiente di correlazione di Pearson tra le variabili utilizzando la funzione ggpairs() dalla libreria GGally. Il codice seguente illustra come utilizzare questa funzione:

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

ggpairs nell'esempio R

Il modo di interpretare questa matrice è il seguente:

  • I nomi delle variabili vengono visualizzati sui bordi esterni della matrice.
  • I riquadri lungo le diagonali mostrano il grafico della densità per ciascuna variabile.
  • Le caselle nell’angolo in basso a sinistra mostrano il grafico a dispersione tra ciascuna variabile.
  • Le caselle nell’angolo in alto a destra mostrano il coefficiente di correlazione di Pearson tra ciascuna variabile. Ad esempio, la correlazione tra var1 e var2 è 0,425 .

Il vantaggio di utilizzare ggpairs() rispetto alla funzione di base Rpairs () è che puoi ottenere maggiori informazioni sulle variabili. Nello specifico, puoi vedere il coefficiente di correlazione tra ciascuna combinazione di variabili a coppie, nonché un grafico della densità per ogni singola variabile.

Puoi trovare la documentazione completa per la funzione ggpairs() qui .

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *