Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment effectuer une mise à l’échelle multidimensionnelle dans R (avec exemple)



En statistiques, la mise à l’échelle multidimensionnelle est un moyen de visualiser la similarité des observations dans un ensemble de données dans un espace cartésien abstrait (généralement un espace 2D).

Le moyen le plus simple d’effectuer une mise à l’échelle multidimensionnelle dans R consiste à utiliser la fonction cmdscale() intégrée, qui utilise la syntaxe de base suivante :

cmdscale(d, eig = FAUX, k = 2, …)

où:

  • d : Une matrice de distance généralement calculée par la fonction dist() .
  • eig : s’il faut ou non renvoyer les valeurs propres.
  • k : Le nombre de dimensions dans lesquelles visualiser les données. La valeur par défaut est 2 .

L’exemple suivant montre comment utiliser cette fonction dans la pratique.

Exemple : mise à l’échelle multidimensionnelle dans R

Supposons que nous ayons le bloc de données suivant dans R qui contient des informations sur divers joueurs de basket-ball :

#create data frame
df <- data.frame(points=c(4, 4, 6, 7, 8, 14, 16, 19, 25, 25, 28),
                 assists=c(3, 2, 2, 5, 4, 8, 7, 6, 8, 10, 11),
                 blocks=c(7, 3, 6, 7, 5, 8, 8, 4, 2, 2, 1),
                 rebounds=c(4, 5, 5, 6, 5, 8, 10, 4, 3, 2, 2))

#add row names
row.names(df) <- LETTERS[1:11]

#view data frame
df

  points assists blocks rebounds
A      4       3      7        4
B      4       2      3        5
C      6       2      6        5
D      7       5      7        6
E      8       4      5        5
F     14       8      8        8
G     16       7      8       10
H     19       6      4        4
I     25       8      2        3
J     25      10      2        2
K     28      11      1        2

Nous pouvons utiliser le code suivant pour effectuer une mise à l’échelle multidimensionnelle avec la fonction cmdscale() et visualiser les résultats dans un espace 2D :

#calculate distance matrix
d <- dist(df)

#perform multidimensional scaling
fit <- cmdscale(d, eig=TRUE, k=2)

#extract (x, y) coordinates of multidimensional scaleing
x <- fit$points[,1]
y <- fit$points[,2]

#create scatter plot
plot(x, y, xlab="Coordinate 1", ylab="Coordinate 2",
     main="Multidimensional Scaling Results", type="n")

#add row names of data frame as labels
text(x, y, labels=row.names(df))

mise à l'échelle multidimensionnelle dans R

Les joueurs du bloc de données d’origine qui ont des valeurs similaires dans les quatre colonnes d’origine (points, passes décisives, blocages et rebonds) sont proches les uns des autres dans l’intrigue.

Par exemple, les joueurs A et C sont proches l’un de l’autre. Voici leurs valeurs à partir du bloc de données d’origine :

#view data frame values for players A and C
df[rownames(df) %in% c('A', 'C'), ]

  points assists blocks rebounds
A      4       3      7        4
C      6       2      6        5

Leurs valeurs pour les points, les passes décisives, les blocages et les rebonds sont toutes assez similaires, ce qui explique pourquoi ils sont si proches les uns des autres dans le tracé 2D.

En revanche, considérons les joueurs B et K qui sont éloignés l’un de l’autre dans l’intrigue.

Si nous nous référons à leurs valeurs dans les données originales, nous pouvons voir qu’elles sont assez différentes :

#view data frame values for players B and K
df[rownames(df) %in% c('B', 'K'), ]

  points assists blocks rebounds
B      4       2      3        5
K     28      11      1        2

Ainsi, le tracé 2D est un bon moyen de visualiser à quel point chaque joueur est similaire sur toutes les variables du bloc de données.

Les joueurs ayant des statistiques similaires sont regroupés à proximité tandis que les joueurs ayant des statistiques très différentes sont éloignés les uns des autres dans l’intrigue.

Notez que vous pouvez également extraire les coordonnées exactes (x, y) de chaque joueur de l’intrigue en tapant fit , qui est le nom de la variable dans laquelle nous avons stocké les résultats de la fonction cmdscale() :

#view (x, y) coordinates of points in the plot
fit

         [,1]       [,2]
A -10.6617577 -1.2511291
B -10.3858237 -3.3450473
C  -9.0330408 -1.1968116
D  -7.4905743  1.0578445
E  -6.4021114 -1.0743669
F  -0.4618426  4.7392534
G   0.8850934  6.1460850
H   4.7352436 -0.6004609
I  11.3793381 -1.3563398
J  12.0844168 -1.5494108
K  15.3510585 -1.5696166

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :

Comment normaliser les données dans R
Comment centrer les données dans R
Comment supprimer les valeurs aberrantes dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *