Avantages & Inconvénients de l’utilisation de l’écart type



L’ écart type d’un ensemble de données est un moyen de mesurer l’écart typique des valeurs individuelles par rapport à la valeur moyenne.

La formule pour calculer un écart type d’échantillon, noté s , est :

s = √ Σ(x je – x̄) 2 / (n – 1)

où:

  • Σ : Un symbole qui signifie « somme »
  • x i : La i ème valeur dans un ensemble de données
  • : La moyenne de l’échantillon
  • n : La taille de l’échantillon

Il existe deux principaux avantages à utiliser l’écart type pour décrire la répartition des valeurs dans un ensemble de données :

Avantage n°1 : L’écart type utilise toutes les observations d’un ensemble de données dans son calcul. En statistiques, nous disons généralement que c’est une bonne chose de pouvoir utiliser toutes les observations d’un ensemble de données pour effectuer des calculs, car nous utilisons toutes les « informations » possibles disponibles dans l’ensemble de données.

Avantage n°2 : L’écart type est facile à interpréter . L’écart type est une valeur unique qui nous donne une bonne idée de la distance entre l’observation « typique » d’un ensemble de données et la valeur moyenne.

Cependant, l’utilisation de l’écart type présente un inconvénient majeur :

Inconvénient n°1 : l’écart type peut être affecté par des valeurs aberrantes . Lorsque des valeurs aberrantes extrêmes sont présentes dans un ensemble de données, cela peut gonfler la valeur de l’écart type et ainsi donner une idée trompeuse de la répartition des valeurs dans un ensemble de données.

Les exemples suivants fournissent plus d’informations sur les avantages et les inconvénients de l’utilisation de l’écart type.

Avantage n°1 : L’écart type utilise toutes les observations

Supposons que nous disposions de l’ensemble de données suivant qui montre la distribution des résultats aux examens des étudiants d’une classe :

Notes : 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

Nous pouvons utiliser une calculatrice ou un logiciel statistique pour constater que l’ écart type de l’échantillon de cet ensemble de données est de 8,46.

L’avantage de l’utilisation de l’écart type dans cet exemple est que nous utilisons toutes les observations possibles dans l’ensemble de données pour trouver la « répartition » typique des valeurs.

En revanche, nous pourrions utiliser une autre mesure telle que l’intervalle interquartile pour mesurer la répartition des valeurs dans cet ensemble de données.

Nous pouvons utiliser une calculatrice pour constater que l’ intervalle interquartile est de 17,5 . Cela représente l’écart entre les 50 % intermédiaires des valeurs de l’ensemble de données.

Supposons maintenant que nous modifiions la valeur la plus basse de l’ensemble de données pour qu’elle soit beaucoup plus faible :

Notes : 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

Nous pouvons utiliser une calculatrice pour constater que l’ écart type de l’échantillon est de 18,37 .

Cependant, l’écart interquartile est toujours de 17,5 car aucune des 50 % moyennes des valeurs n’est affectée.

Cela montre que l’écart type de l’échantillon prend en compte toutes les observations de l’ensemble de données dans son calcul, contrairement aux autres mesures de dispersion .

Avantage n°2 : L’écart type est facile à interpréter

Rappelez-vous l’ensemble de données suivant qui montre la répartition des résultats des examens pour les étudiants d’une classe :

Notes : 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

Nous avons utilisé une calculatrice pour constater que l’écart type de l’échantillon de cet ensemble de données était de 8,46 .

Ceci est facile à interpréter car cela signifie simplement que l’écart entre une note d’examen « typique » est d’environ 8,46 par rapport à la note moyenne de l’examen.

En revanche, d’autres mesures de dispersion ne sont pas aussi simples à interpréter.

Par exemple, un coefficient de variation est une autre mesure de dispersion qui représente le rapport entre l’écart type et la moyenne de l’échantillon.

Coefficient de variation : s/x̄

Dans cet exemple, la note moyenne à l’examen est de 81,46, le coefficient de variation est donc calculé comme suit : 8,46 / 81,46 = 0,104 .

Cela représente le rapport entre l’écart type de l’échantillon et la moyenne de l’échantillon, ce qui peut être utile pour comparer la répartition des valeurs entre plusieurs ensembles de données, mais il n’est pas très simple à interpréter comme une métrique en soi.

Inconvénient n°1 : l’écart type peut être affecté par des valeurs aberrantes

Supposons que nous disposions de l’ensemble de données suivant contenant des informations sur les salaires de 10 employés (en milliers de dollars) dans une entreprise :

Salaires : 44, 48, 57, 68, 70, 71, 73, 79, 84, 94

L’écart type de l’échantillon des salaires est d’environ 15,57 .

Supposons maintenant que nous ayons exactement le même ensemble de données, mais que le salaire le plus élevé soit beaucoup plus élevé :

Salaires : 44, 48, 57, 68, 70, 71, 73, 79, 84, 895

L’écart type de l’échantillon des salaires dans cet ensemble de données est d’environ 262,47 .

En incluant une seule valeur aberrante extrême, l’écart type est fortement affecté et donne désormais une idée trompeuse de la répartition « typique » des salaires.

Remarque : Lorsque des valeurs aberrantes sont présentes dans un ensemble de données, l’intervalle interquartile peut fournir une meilleure mesure de la dispersion car il n’est pas affecté par les valeurs aberrantes.

Ressources additionnelles

Les didacticiels suivants fournissent des informations supplémentaires sur l’utilisation de l’écart type dans les statistiques :

Écart interquartile et écart type : la différence
Coefficient de variation par rapport à l’écart type : la différence
Écart type de la population par rapport à l’échantillon : quand utiliser chacun

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *