Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment créer et interpréter des tracés de paires dans R



Un diagramme de paires est une matrice de nuages de points qui vous permet de comprendre la relation par paire entre différentes variables d’un ensemble de données.

Heureusement, il est facile de créer un tracé de paires dans R en utilisant la fonction pairs() . Ce tutoriel fournit plusieurs exemples d’utilisation pratique de cette fonction.

Exemple 1 : tracé de paires de toutes les variables

Le code suivant illustre comment créer un tracé de paires de base pour toutes les variables d’un bloc de données dans R :

#make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
pairs(df)

La façon d’interpréter la matrice est la suivante :

  • Les noms des variables sont affichés le long des cases diagonales.
  • Toutes les autres cases affichent un nuage de points de la relation entre chaque combinaison de variables par paire. Par exemple, la zone dans le coin supérieur droit de la matrice affiche un nuage de points de valeurs pour var1 et var3 . La zone au milieu à gauche affiche un nuage de points de valeurs pour var1 et var2 , et ainsi de suite.

Ce graphique unique nous donne une idée de la relation entre chaque paire de variables de notre ensemble de données. Par exemple, var1 et var2 semblent être positivement corrélés tandis que var1 et var3 semblent avoir peu ou pas de corrélation.

Exemple 2 : tracé de paires de variables spécifiques

Le code suivant illustre comment créer un tracé de paires de base pour uniquement les deux premières variables d’un ensemble de données :

#create pairs plot for var1 and var2 only
pairs(df[, 1:2])

Tracé de paires de variables spécifiques dans R

Exemple 3 : Modifier l’esthétique d’un tracé de paires

Le code suivant illustre comment modifier l’esthétique d’un tracé de paires, y compris le titre, la couleur et les étiquettes :

pairs(df,
      col = 'blue', #modify color
      labels = c('First', 'Second', 'Third'), #modify labels
      main = 'Custom Title') #modify title

Tracé de paires personnalisées dans R

Exemple 4 : obtention de corrélations avec des ggpairs

Vous pouvez également obtenir le coefficient de corrélation de Pearson entre les variables en utilisant la fonction ggpairs() de la bibliothèque GGally. Le code suivant illustre comment utiliser cette fonction :

#install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df)

fonction ggpairs dans l'exemple R

La façon d’interpréter cette matrice est la suivante :

  • Les noms des variables sont affichés sur les bords extérieurs de la matrice.
  • Les cases le long des diagonales affichent le tracé de densité pour chaque variable.
  • Les cases dans le coin inférieur gauche affichent le nuage de points entre chaque variable.
  • Les cases dans le coin supérieur droit affichent le coefficient de corrélation de Pearson entre chaque variable. Par exemple, la corrélation entre var1 et var2 est 0,425 .

L’avantage d’utiliser ggpairs() par rapport à la fonction R de base pairs() est que vous pouvez obtenir plus d’informations sur les variables. Plus précisément, vous pouvez voir le coefficient de corrélation entre chaque combinaison de variables par paire ainsi qu’un tracé de densité pour chaque variable individuelle.

Vous pouvez trouver la documentation complète de la fonction ggpairs() ici .

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *