Qu’est-ce que Sturges ? Règle? (Définition & #038; Exemple)



Un histogramme est un graphique qui nous aide à visualiser la distribution des valeurs dans un ensemble de données.

Il s’avère que le nombre de cases utilisées dans un histogramme peut avoir un impact énorme sur la façon dont nous interprétons les données.

Si nous utilisons trop peu de groupes, le véritable modèle sous-jacent dans les données peut être masqué :

Et si nous utilisons trop de groupes, nous pouvons simplement visualiser le bruit dans un ensemble de données :

Heureusement, nous pouvons utiliser une méthode connue sous le nom de règle de Sturges pour déterminer le nombre optimal de cases à utiliser dans un histogramme.

La règle de Sturges utilise la formule suivante pour déterminer le nombre optimal de groupes à utiliser dans un histogramme :

Bacs optimaux = ⌈log 2 n + 1⌉

où:

  • n : le nombre total d’ observations dans l’ensemble de données.
  • ⌈ ⌉ : Symboles signifiant « plafond », c’est-à-dire arrondir la réponse à l’entier supérieur le plus proche.

Exemple : la règle de Sturges

Supposons que nous ayons l’ensemble de données suivant avec n = 31 observations au total :

Nous pouvons utiliser la règle de Sturges pour déterminer le nombre optimal de cases à utiliser pour visualiser ces valeurs dans un histogramme :

Bacs optimaux = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Selon la règle de Sturges, nous devrions utiliser 6 cases dans l’histogramme que nous utilisons pour visualiser cette distribution de valeurs.

Voici à quoi ressemblerait un histogramme avec 6 groupes pour cet ensemble de données :

Utiliser la règle de Sturges pour déterminer le nombre de cases à utiliser dans un histogramme

Remarquez à quel point cela semble être suffisant pour avoir une bonne idée de la distribution sous-jacente des valeurs sans être trop nombreux pour visualiser simplement le bruit dans les données.

Valeurs communes pour la règle de Sturges

Le tableau suivant montre le nombre optimal de groupes à utiliser dans un histogramme en fonction du nombre total d’observations dans un ensemble de données, selon la règle de Sturges :

Règle de Sturges pour différentes tailles d'échantillon

Alternatives à la règle de Sturges

La règle de Sturges est la méthode la plus courante pour déterminer le nombre optimal de compartiments à utiliser dans un histogramme, mais il existe plusieurs méthodes alternatives, notamment :

La règle de la racine carrée : Nombre de cases = ⌈√ n

La règle du riz : Nombre de bacs = ⌈2 * 3n

La règle de Freedman-Diaconis : Nombre de cases = (2*IQR) / 3nIQR est l’intervalle interquartile.

Bonus : Calculateur de la règle de Sturges

Utilisez cette calculatrice en ligne gratuite pour appliquer automatiquement la règle de Sturges afin de déterminer le nombre optimal de groupes à utiliser pour un histogramme en fonction de la taille d’un ensemble de données.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *