R : Comment modifier le nombre de compartiments dans l’histogramme
Lorsque vous créez un histogramme dans R, une formule connue sous le nom de règle de Sturges est utilisée pour déterminer le nombre optimal de groupes à utiliser.
Cependant, vous pouvez utiliser la syntaxe suivante pour remplacer cette formule et spécifier un nombre exact de groupes à utiliser dans l’histogramme :
hist(data, breaks = seq(min(data), max(data), length.out = 7))
Notez que le nombre de groupes utilisés dans l’histogramme sera inférieur d’un au nombre spécifié dans l’argument length.out .
Les exemples suivants montrent comment utiliser cette syntaxe dans la pratique.
Exemple 1 : créer un histogramme de base
Le code suivant montre comment créer un histogramme de base dans R sans spécifier le nombre de bacs :
#define vector of data
data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16)
#create histogram of data
hist(data, col = 'lightblue')
En utilisant la règle de Sturges, R a décidé d’utiliser 8 groupes au total dans l’histogramme.
Exemple 2 : spécifier le nombre de compartiments à utiliser dans l’histogramme
Le code suivant montre comment créer un histogramme pour le même vecteur de données et utiliser exactement 6 groupes :
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 6 bins hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 7))
Précautions concernant le choix d’un nombre spécifique de bacs
Le nombre de groupes utilisés dans un histogramme a un impact énorme sur la façon dont nous interprétons un ensemble de données.
Si nous utilisons trop peu de groupes, le véritable modèle sous-jacent dans les données peut être masqué :
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 3 bins hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 4))
À l’inverse, si nous utilisons trop de groupes, nous pouvons simplement visualiser le bruit dans un ensemble de données :
#define vector of data data <- c(1, 2, 2, 3, 4, 4, 4, 5, 5, 6, 7, 10, 11, 13, 16, 16, 16) #create histogram with 15 bins hist(data, col = 'lightblue', breaks = seq(min(data), max(data), length.out = 16))
En général, la règle de Sturges par défaut utilisée dans R a tendance à produire des histogrammes comportant un nombre optimal de groupes.
N’hésitez pas à utiliser le code fourni ici pour créer un histogramme avec un nombre exact de bacs, mais veillez à ne pas choisir trop ou pas assez de bacs.
Ressources additionnelles
Les didacticiels suivants expliquent comment exécuter d’autres fonctions courantes avec des histogrammes dans R :
Comment tracer plusieurs histogrammes dans R
Comment créer un histogramme de deux variables dans R
Comment créer un histogramme de fréquence relative dans R