Comment créer une matrice de nuages de points dans R (2 exemples)
Une matrice de nuages de points est une matrice de nuages de points qui vous permet de comprendre la relation par paire entre différentes variables d’un ensemble de données.
Il existe deux manières courantes de créer une matrice de nuages de points dans R :
Méthode 1 : utiliser Base R
#create scatterplot matrix (pch=20 means to use a solid circle for points) plot(df, pch=20)
Méthode 2 : utiliser les packages ggplot2 et GGally
library(ggplot2) library(GGally) #create scatterplot matrix ggpairs(df)
Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant dans R :
#create data frame df <- data.frame(points=c(99, 90, 86, 88, 95, 99, 101, 104), assists=c(33, 28, 31, 39, 40, 40, 35, 47), rebounds=c(30, 28, 24, 24, 20, 20, 15, 12)) #view first few rows of data frame head(df) points assists rebounds 1 99 33 30 2 90 28 28 3 86 31 24 4 88 39 24 5 95 40 20 6 99 40 20
Exemple 1 : Créer une matrice de nuages de points à l’aide de Base R
Nous pouvons utiliser la fonction plot() en base R pour créer une matrice de nuage de points pour chaque variable de notre bloc de données :
#create scatterplot matrix
plot(df, pch=20, cex=1.5, col='steelblue')
La façon d’interpréter la matrice est la suivante :
- Les noms des variables sont affichés le long des cases diagonales.
- Toutes les autres cases affichent un nuage de points de la relation entre chaque combinaison de variables par paire. Par exemple, la case dans le coin supérieur droit de la matrice affiche un nuage de points de valeurs pour les points et les rebonds . La zone au milieu à gauche affiche un nuage de points de valeurs pour les points et les passes décisives , etc.
Notez que cex contrôle la taille des points dans le tracé et col contrôle la couleur des points.
Exemple 2 : Créer une matrice de nuages de points à l’aide de ggplot2 et GGally
Nous pouvons également utiliser la fonction ggpairs() des packages ggplot2 et GGally dans R pour créer une matrice de nuage de points pour chaque variable de notre bloc de données :
library(ggplot2) library(GGally) #create scatterplot matrix ggpairs(df)
Cette matrice de nuages de points contient les mêmes nuages de points que la fonction plot() de la base R, mais en plus nous pouvons également voir le coefficient de corrélation entre chaque combinaison par paire de variables ainsi qu’un tracé de densité pour chaque variable individuelle.
Par exemple, nous pouvons voir :
- Le coefficient de corrélation entre les passes décisives et les points est de 0,571 .
- Le coefficient de corrélation entre rebonds et points est de -0,598 .
- Le coefficient de corrélation entre rebonds et passes décisives est de -0,740 .
La petite étoile ( * ) à côté de -0,740 indique également que la corrélation entre rebonds et passes décisives est statistiquement significative.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :
Comment créer une matrice de corrélation dans R
Comment créer des nuages de points par groupe dans R