Come creare una matrice di grafico a dispersione in r (2 esempi)
Una matrice di grafico a dispersione è una matrice di grafico a dispersione che consente di comprendere la relazione a coppie tra diverse variabili in un set di dati.
Esistono due modi comuni per creare una matrice di grafico a dispersione in R:
Metodo 1: utilizzare Base R
#create scatterplot matrix (pch=20 means to use a solid circle for points) plot(df, pch= 20 )
Metodo 2: utilizzare i pacchetti ggplot2 e GGally
library (ggplot2) library (GGally) #create scatterplot matrix ggpairs(df)
I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con il seguente frame di dati in R:
#create data frame df <- data. frame (points=c(99, 90, 86, 88, 95, 99, 101, 104), assists=c(33, 28, 31, 39, 40, 40, 35, 47), rebounds=c(30, 28, 24, 24, 20, 20, 15, 12)) #view first few rows of data frame head(df) points assists rebounds 1 99 33 30 2 90 28 28 3 86 31 24 4 88 39 24 5 95 40 20 6 99 40 20
Esempio 1: creare una matrice di grafico a dispersione utilizzando la base R
Possiamo usare la funzione base R plot() per creare una matrice di grafico a dispersione per ogni variabile nel nostro frame di dati:
#create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col=' steelblue ')
Il modo di interpretare la matrice è il seguente:
- I nomi delle variabili vengono visualizzati lungo le caselle diagonali.
- Tutte le altre caselle mostrano un grafico a dispersione della relazione tra ciascuna combinazione di variabili a coppie. Ad esempio, la casella nell’angolo in alto a destra della matrice mostra un grafico a dispersione di valori per punti e rimbalzi . L’area centrale a sinistra mostra un grafico a dispersione di valori per punti , assist , ecc.
Nota che cex controlla la dimensione dei punti nel percorso e col controlla il colore dei punti.
Esempio 2: creare una matrice di grafico a dispersione utilizzando ggplot2 e GGally
Possiamo anche utilizzare la funzione ggpairs() dei pacchetti ggplot2 e GGally in R per creare una matrice di grafici a dispersione per ogni variabile nel nostro frame di dati:
library (ggplot2) library (GGally) #create scatterplot matrix ggpairs(df)
Questa matrice di grafici a dispersione contiene gli stessi grafici a dispersione della funzione R base plot() , ma in aggiunta possiamo anche vedere il coefficiente di correlazione tra ciascuna combinazione di variabili a coppie, nonché un grafico di densità per ogni singola variabile.
Ad esempio, possiamo vedere:
- Il coefficiente di correlazione tra assist e punti è 0,571 .
- Il coefficiente di correlazione tra rimbalzi e punti è -0,598 .
- Il coefficiente di correlazione tra rimbalzi e assist è -0,740 .
La piccola stella ( * ) accanto a -0,740 indica anche che la correlazione tra rimbalzi e assist è statisticamente significativa.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in R:
Come creare una matrice di correlazione in R
Come creare nuvole di punti per gruppo in R