Comment créer et interpréter des tracés de paires dans R

Par Dr. Benjamin Anderson juillet 28, 2023 Guide 0 commentaire

Un diagramme de paires est une matrice de nuages de points qui vous permet de comprendre la relation par paire entre différentes variables d’un ensemble de données.

Heureusement, il est facile de créer un tracé de paires dans R en utilisant la fonction pairs() . Ce tutoriel fournit plusieurs exemples d’utilisation pratique de cette fonction.

Exemple 1 : tracé de paires de toutes les variables

Le code suivant illustre comment créer un tracé de paires de base pour toutes les variables d’un bloc de données dans R :

#make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
pairs(df)

La façon d’interpréter la matrice est la suivante :

Les noms des variables sont affichés le long des cases diagonales.
Toutes les autres cases affichent un nuage de points de la relation entre chaque combinaison de variables par paire. Par exemple, la zone dans le coin supérieur droit de la matrice affiche un nuage de points de valeurs pour var1 et var3 . La zone au milieu à gauche affiche un nuage de points de valeurs pour var1 et var2 , et ainsi de suite.

Ce graphique unique nous donne une idée de la relation entre chaque paire de variables de notre ensemble de données. Par exemple, var1 et var2 semblent être positivement corrélés tandis que var1 et var3 semblent avoir peu ou pas de corrélation.

Exemple 2 : tracé de paires de variables spécifiques

Le code suivant illustre comment créer un tracé de paires de base pour uniquement les deux premières variables d’un ensemble de données :

#create pairs plot for var1 and var2 only
pairs(df[, 1:2])

Tracé de paires de variables spécifiques dans R

Exemple 3 : Modifier l’esthétique d’un tracé de paires

Le code suivant illustre comment modifier l’esthétique d’un tracé de paires, y compris le titre, la couleur et les étiquettes :

pairs(df,
      col = 'blue', #modify color
      labels = c('First', 'Second', 'Third'), #modify labels
      main = 'Custom Title') #modify title

Tracé de paires personnalisées dans R

Exemple 4 : obtention de corrélations avec des ggpairs

Vous pouvez également obtenir le coefficient de corrélation de Pearson entre les variables en utilisant la fonction ggpairs() de la bibliothèque GGally. Le code suivant illustre comment utiliser cette fonction :

#install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df)

fonction ggpairs dans l'exemple R

La façon d’interpréter cette matrice est la suivante :

Les noms des variables sont affichés sur les bords extérieurs de la matrice.
Les cases le long des diagonales affichent le tracé de densité pour chaque variable.
Les cases dans le coin inférieur gauche affichent le nuage de points entre chaque variable.
Les cases dans le coin supérieur droit affichent le coefficient de corrélation de Pearson entre chaque variable. Par exemple, la corrélation entre var1 et var2 est 0,425 .

L’avantage d’utiliser ggpairs() par rapport à la fonction R de base pairs() est que vous pouvez obtenir plus d’informations sur les variables. Plus précisément, vous pouvez voir le coefficient de corrélation entre chaque combinaison de variables par paire ainsi qu’un tracé de densité pour chaque variable individuelle.

Vous pouvez trouver la documentation complète de la fonction ggpairs() ici .

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus