Comment effectuer une mise à l’échelle multidimensionnelle en Python



En statistiques, la mise à l’échelle multidimensionnelle est un moyen de visualiser la similarité des observations dans un ensemble de données dans un espace cartésien abstrait (généralement un espace 2D).

Le moyen le plus simple d’effectuer une mise à l’échelle multidimensionnelle en Python consiste à utiliser la fonction MDS() du sous-module sklearn.manifold .

L’exemple suivant montre comment utiliser cette fonction dans la pratique.

Exemple : mise à l’échelle multidimensionnelle en Python

Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur divers joueurs de basket-ball :

import pandas as pd

#create DataFrane
df = pd.DataFrame({'player': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K'],
                   'points': [4, 4, 6, 7, 8, 14, 16, 19, 25, 25, 28],
                   'assists': [3, 2, 2, 5, 4, 8, 7, 6, 8, 10, 11],
                   'blocks': [7, 3, 6, 7, 5, 8, 8, 4, 2, 2, 1],
                   'rebounds': [4, 5, 5, 6, 5, 8, 10, 4, 3, 2, 2]})

#set player column as index column
df = df.set_index('player')

#view Dataframe
print(df)

        points  assists  blocks  rebounds
player                                   
A            4        3       7         4
B            4        2       3         5
C            6        2       6         5
D            7        5       7         6
E            8        4       5         5
F           14        8       8         8
G           16        7       8        10
H           19        6       4         4
I           25        8       2         3
J           25       10       2         2
K           28       11       1         2

Nous pouvons utiliser le code suivant pour effectuer une mise à l’échelle multidimensionnelle avec la fonction MDS() du module sklearn.manifold :

from sklearn.manifold import MDS

#perform multi-dimensional scaling
mds = MDS(random_state=0)
scaled_df = mds.fit_transform(df)

#view results of multi-dimensional scaling
print(scaled_df)

[[  7.43654469   8.10247222]
 [  4.13193821  10.27360901]
 [  5.20534681   7.46919526]
 [  6.22323046   4.45148627]
 [  3.74110999   5.25591459]
 [  3.69073384  -2.88017811]
 [  3.89092087  -5.19100988]
 [ -3.68593169  -3.0821144 ]
 [ -9.13631889  -6.81016012]
 [ -8.97898385  -8.50414387]
 [-12.51859044  -9.08507097]]

Chaque ligne du DataFrame d’origine a été réduite à une coordonnée (x, y).

Nous pouvons utiliser le code suivant pour visualiser ces coordonnées dans un espace 2D :

import matplotlib.pyplot as plt

#create scatterplot
plt.scatter(scaled_df[:,0], scaled_df[:,1])

#add axis labels
plt.xlabel('Coordinate 1')
plt.ylabel('Coordinate 2')

#add lables to each point
for i, txt in enumerate(df.index):
    plt.annotate(txt, (scaled_df[:,0][i]+.3, scaled_df[:,1][i]))

#display scatterplot
plt.show()

mise à l'échelle multidimensionnelle en Python

Les joueurs du DataFrame d’origine qui ont des valeurs similaires dans les quatre colonnes d’origine (points, passes décisives, blocages et rebonds) sont proches les uns des autres dans l’intrigue.

Par exemple, les joueurs F et G sont proches l’un de l’autre. Voici leurs valeurs du DataFrame d’origine :

#select rows with index labels 'F' and 'G'
df.loc[['F', 'G']]

        points	assists	blocks	rebounds
player				
F	14	8	8	8
G	16	7	8	10

Leurs valeurs pour les points, les passes décisives, les blocages et les rebonds sont toutes assez similaires, ce qui explique pourquoi ils sont si proches les uns des autres dans le tracé 2D.

En revanche, considérons les joueurs B et K qui sont éloignés l’un de l’autre dans l’intrigue.

Si nous nous référons à leurs valeurs dans le DataFrame d’origine, nous pouvons voir qu’elles sont assez différentes :

#select rows with index labels 'B' and 'K'
df.loc[['B', 'K']]

        points	assists	blocks	rebounds
player				
B	4	2	3	5
K	28	11	1	2

Ainsi, le tracé 2D est un bon moyen de visualiser à quel point chaque joueur est similaire à travers toutes les variables du DataFframe.

Les joueurs ayant des statistiques similaires sont regroupés à proximité tandis que les joueurs ayant des statistiques très différentes sont éloignés les uns des autres dans l’intrigue.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes en Python :

Comment normaliser les données en Python
Comment supprimer les valeurs aberrantes en Python
Comment tester la normalité en Python

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *