Avantages & Inconvénients de l’utilisation de la médiane dans les statistiques



La médiane représente la valeur médiane d’un ensemble de données.

Il est calculé en classant toutes les observations dans un ensemble de données de la plus petite à la plus grande, puis en identifiant la valeur médiane.

Il y a deux avantages principaux à utiliser la médiane pour décrire le centre d’un ensemble de données :

Avantage n°1 : La médiane n’est pas affectée par les valeurs aberrantes. Étant donné que la médiane ne trouve que la valeur médiane d’un ensemble de données, elle n’est pas affectée par des valeurs extrêmement petites ou extrêmement grandes à chaque extrémité d’un ensemble de données.

Avantage n°2 : la médiane est une bonne mesure du centre pour les ensembles de données asymétriques. Lorsqu’un ensemble de données est asymétrique vers la gauche ou la droite , la médiane parvient toujours à identifier la valeur centrale d’un ensemble de données, contrairement à la moyenne qui est fortement affectée par les distributions asymétriques.

Cependant, l’utilisation de la médiane pour résumer un ensemble de données présente deux inconvénients potentiels :

Inconvénient n°1 : La médiane n’utilise pas toutes les observations d’un ensemble de données dans son calcul. En statistiques, nous disons généralement que c’est une bonne chose si nous pouvons utiliser toutes les observations d’un ensemble de données, car nous utilisons alors toutes les informations disponibles à partir de nos données. Cependant, la médiane ne prend pas en compte les informations provenant de valeurs extrêmement petites ou extrêmement grandes dans un ensemble de données.

Inconvénient n°2 : la médiane ne peut pas être utilisée pour trouver la somme de toutes les observations de l’ensemble de données. Si nous connaissons la moyenne et la taille totale de l’échantillon d’un ensemble de données, nous pouvons trouver la somme de toutes les valeurs de l’ensemble de données. Cependant, on ne peut pas faire la même chose avec la médiane.

Les exemples suivants illustrent ces avantages et inconvénients dans la pratique.

Exemple 1 : les avantages de l’utilisation de la médiane

Supposons que nous ayons une répartition des salaires très asymétrique et que nous décidions de calculer à la fois le salaire moyen et médian :

La moyenne nous indique qu’un individu typique gagne environ 47 000 $ par an, tandis que la médiane nous indique que l’individu typique ne gagne qu’environ 32 000 $ par an, ce qui est beaucoup plus représentatif de l’individu type.

Dans cet exemple, la moyenne est affectée par les valeurs les plus élevées sur la queue droite de la distribution, alors que la médiane ne l’est pas.

Ou supposons que nous ayons une autre distribution contenant des informations sur la superficie en pieds carrés des maisons dans une certaine rue et que nous décidions de calculer à la fois la moyenne et la médiane de l’ensemble de données :

Quand utiliser la moyenne par rapport à la médiane

La moyenne est influencée par quelques maisons extrêmement grandes, ce qui lui fait prendre une valeur beaucoup plus élevée.

Cependant, la médiane n’est pas affectée par ces valeurs aberrantes et fournit donc une bien meilleure mesure de la superficie « typique » d’une maison dans cette rue.

Exemple 2 : les inconvénients de l’utilisation de la médiane

Rappelons le premier inconvénient potentiel de la médiane :

Inconvénient n°1 : La médiane n’utilise pas toutes les observations d’un ensemble de données dans son calcul.

Par exemple, supposons que nous disposions de l’ensemble de données suivant qui montre la distribution des résultats aux examens des étudiants d’une classe :

Notes : 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

La note médiane à l’examen est de 83.

Supposons maintenant que nous ayons le même ensemble de données, mais que les trois scores les plus bas aux examens soient bien inférieurs :

Notes : 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

La note médiane aux examens dans cette distribution est toujours de 83.

C’est pourquoi nous disons que la médiane n’utilise pas toutes les informations disponibles dans un ensemble de données : elle ne prend pas en compte les valeurs réelles des données puisqu’il s’agit uniquement d’une mesure de position.

Rappelons maintenant le deuxième inconvénient potentiel de la médiane :

Inconvénient n°2 : la médiane ne peut pas être utilisée pour trouver la somme de toutes les observations de l’ensemble de données.

Supposons que nous disposions de l’ensemble de données suivant contenant des informations sur les ventes totales réalisées par 11 employés différents au cours d’un trimestre particulier :

Soldes : 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

Nous savons que la valeur médiane est de 24 et nous savons qu’il y a 11 employés au total. Cependant, nous ne pouvons pas utiliser ces informations pour connaître le montant total des ventes de tous les employés.

En revanche, si nous savions que la valeur moyenne est de 24 et qu’il y a 11 employés au total, nous pourrions simplement multiplier 24 par 11 pour constater que la somme totale des ventes est de 24 * 11 = 264.

Remarque : En fonction de la distribution de vos données et du problème que vous essayez de résoudre, la moyenne ou la médiane pourrait s’avérer être la métrique préférée à utiliser.

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur la moyenne et la médiane dans les statistiques :

Comment les valeurs aberrantes affectent-elles la moyenne ?
Comment estimer la moyenne et la médiane de n’importe quel histogramme
Comment trouver la moyenne et la médiane des parcelles à tiges et à feuilles

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *