Comment créer et interpréter des tracés de paires dans R
Un diagramme de paires est une matrice de nuages de points qui vous permet de comprendre la relation par paire entre différentes variables d’un ensemble de données.
Heureusement, il est facile de créer un tracé de paires dans R en utilisant la fonction pairs() . Ce tutoriel fournit plusieurs exemples d’utilisation pratique de cette fonction.
Exemple 1 : tracé de paires de toutes les variables
Le code suivant illustre comment créer un tracé de paires de base pour toutes les variables d’un bloc de données dans R :
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot pairs(df)
La façon d’interpréter la matrice est la suivante :
- Les noms des variables sont affichés le long des cases diagonales.
- Toutes les autres cases affichent un nuage de points de la relation entre chaque combinaison de variables par paire. Par exemple, la zone dans le coin supérieur droit de la matrice affiche un nuage de points de valeurs pour var1 et var3 . La zone au milieu à gauche affiche un nuage de points de valeurs pour var1 et var2 , et ainsi de suite.
Ce graphique unique nous donne une idée de la relation entre chaque paire de variables de notre ensemble de données. Par exemple, var1 et var2 semblent être positivement corrélés tandis que var1 et var3 semblent avoir peu ou pas de corrélation.
Exemple 2 : tracé de paires de variables spécifiques
Le code suivant illustre comment créer un tracé de paires de base pour uniquement les deux premières variables d’un ensemble de données :
#create pairs plot for var1 and var2 only
pairs(df[, 1:2])
Exemple 3 : Modifier l’esthétique d’un tracé de paires
Le code suivant illustre comment modifier l’esthétique d’un tracé de paires, y compris le titre, la couleur et les étiquettes :
pairs(df, col = 'blue', #modify color labels = c('First', 'Second', 'Third'), #modify labels main = 'Custom Title') #modify title
Exemple 4 : obtention de corrélations avec des ggpairs
Vous pouvez également obtenir le coefficient de corrélation de Pearson entre les variables en utilisant la fonction ggpairs() de la bibliothèque GGally. Le code suivant illustre comment utiliser cette fonction :
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
La façon d’interpréter cette matrice est la suivante :
- Les noms des variables sont affichés sur les bords extérieurs de la matrice.
- Les cases le long des diagonales affichent le tracé de densité pour chaque variable.
- Les cases dans le coin inférieur gauche affichent le nuage de points entre chaque variable.
- Les cases dans le coin supérieur droit affichent le coefficient de corrélation de Pearson entre chaque variable. Par exemple, la corrélation entre var1 et var2 est 0,425 .
L’avantage d’utiliser ggpairs() par rapport à la fonction R de base pairs() est que vous pouvez obtenir plus d’informations sur les variables. Plus précisément, vous pouvez voir le coefficient de corrélation entre chaque combinaison de variables par paire ainsi qu’un tracé de densité pour chaque variable individuelle.
Vous pouvez trouver la documentation complète de la fonction ggpairs() ici .