Qu’est-ce que Sturges ? Règle? (Définition & #038; Exemple)
Un histogramme est un graphique qui nous aide à visualiser la distribution des valeurs dans un ensemble de données.
Il s’avère que le nombre de cases utilisées dans un histogramme peut avoir un impact énorme sur la façon dont nous interprétons les données.
Si nous utilisons trop peu de groupes, le véritable modèle sous-jacent dans les données peut être masqué :
Et si nous utilisons trop de groupes, nous pouvons simplement visualiser le bruit dans un ensemble de données :
Heureusement, nous pouvons utiliser une méthode connue sous le nom de règle de Sturges pour déterminer le nombre optimal de cases à utiliser dans un histogramme.
La règle de Sturges utilise la formule suivante pour déterminer le nombre optimal de groupes à utiliser dans un histogramme :
Bacs optimaux = ⌈log 2 n + 1⌉
où:
- n : le nombre total d’ observations dans l’ensemble de données.
- ⌈ ⌉ : Symboles signifiant « plafond », c’est-à-dire arrondir la réponse à l’entier supérieur le plus proche.
Exemple : la règle de Sturges
Supposons que nous ayons l’ensemble de données suivant avec n = 31 observations au total :
Nous pouvons utiliser la règle de Sturges pour déterminer le nombre optimal de cases à utiliser pour visualiser ces valeurs dans un histogramme :
Bacs optimaux = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .
Selon la règle de Sturges, nous devrions utiliser 6 cases dans l’histogramme que nous utilisons pour visualiser cette distribution de valeurs.
Voici à quoi ressemblerait un histogramme avec 6 groupes pour cet ensemble de données :
Remarquez à quel point cela semble être suffisant pour avoir une bonne idée de la distribution sous-jacente des valeurs sans être trop nombreux pour visualiser simplement le bruit dans les données.
Valeurs communes pour la règle de Sturges
Le tableau suivant montre le nombre optimal de groupes à utiliser dans un histogramme en fonction du nombre total d’observations dans un ensemble de données, selon la règle de Sturges :
Alternatives à la règle de Sturges
La règle de Sturges est la méthode la plus courante pour déterminer le nombre optimal de compartiments à utiliser dans un histogramme, mais il existe plusieurs méthodes alternatives, notamment :
La règle de la racine carrée : Nombre de cases = ⌈√ n ⌉
La règle du riz : Nombre de bacs = ⌈2 * 3 √ n ⌉
La règle de Freedman-Diaconis : Nombre de cases = (2*IQR) / 3 √ n où IQR est l’intervalle interquartile.
Bonus : Calculateur de la règle de Sturges
Utilisez cette calculatrice en ligne gratuite pour appliquer automatiquement la règle de Sturges afin de déterminer le nombre optimal de groupes à utiliser pour un histogramme en fonction de la taille d’un ensemble de données.