R : Comment modifier le nombre de compartiments dans l’histogramme



Lorsque vous créez un histogramme dans R, une formule connue sous le nom de règle de Sturges est utilisée pour déterminer le nombre optimal de groupes à utiliser.

Cependant, vous pouvez utiliser la syntaxe suivante pour remplacer cette formule et spécifier un nombre exact de groupes à utiliser dans l’histogramme :

hist(data, breaks = seq(min(data), max(data), length.out = 7))

Notez que le nombre de groupes utilisés dans l’histogramme sera inférieur d’un au nombre spécifié dans l’argument length.out .

Les exemples suivants montrent comment utiliser cette syntaxe dans la pratique.

Exemple 1 : créer un histogramme de base

Le code suivant montre comment créer un histogramme de base dans R sans spécifier le nombre de bacs :

#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram of data
hist(data, col = 'lightblue')

En utilisant la règle de Sturges, R a décidé d’utiliser 8 groupes au total dans l’histogramme.

Exemple 2 : spécifier le nombre de compartiments à utiliser dans l’histogramme

Le code suivant montre comment créer un histogramme pour le même vecteur de données et utiliser exactement 6 groupes :

#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 6 bins
hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 7))

Précautions concernant le choix d’un nombre spécifique de bacs

Le nombre de groupes utilisés dans un histogramme a un impact énorme sur la façon dont nous interprétons un ensemble de données.

Si nous utilisons trop peu de groupes, le véritable modèle sous-jacent dans les données peut être masqué :

#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 3 bins
hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 4))

À l’inverse, si nous utilisons trop de groupes, nous pouvons simplement visualiser le bruit dans un ensemble de données :

#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)

#create histogram with 15 bins
hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 16))

En général, la règle de Sturges par défaut utilisée dans R a tendance à produire des histogrammes comportant un nombre optimal de groupes.

N’hésitez pas à utiliser le code fourni ici pour créer un histogramme avec un nombre exact de bacs, mais veillez à ne pas choisir trop ou pas assez de bacs.

Ressources additionnelles

Les didacticiels suivants expliquent comment exécuter d’autres fonctions courantes avec des histogrammes dans R :

Comment tracer plusieurs histogrammes dans R
Comment créer un histogramme de deux variables dans R
Comment créer un histogramme de fréquence relative dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *