Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment spécifier des ruptures d’histogramme dans R (avec des exemples)



Par défaut, la fonction hist() dans R utilise la règle de Sturges pour déterminer le nombre de cases à utiliser dans un histogramme.

La règle de Sturges utilise la formule suivante pour déterminer le nombre optimal de groupes à utiliser dans un histogramme :

Bacs optimaux = ⌈log 2 n + 1⌉

où:

  • n : le nombre total d’ observations dans l’ensemble de données.
  • ⌈ ⌉ : Symboles signifiant « plafond », c’est-à-dire arrondir la réponse à l’entier supérieur le plus proche.

Par exemple, s’il y a 31 observations dans un ensemble de données, la règle de Sturge utilisera la formule suivante pour déterminer le nombre optimal de groupes à utiliser dans un histogramme :

Bacs optimaux = ⌈log 2 (31) + 1⌉ = ⌈4,954 + 1⌉ = ⌈5,954⌉ = 6 .

Selon la règle de Sturges, nous devrions utiliser 6 cases dans l’histogramme pour visualiser cet ensemble de données.

Si vous utilisez la fonction hist() dans R, la règle de Sturges sera utilisée pour choisir automatiquement le nombre de bacs à afficher dans l’histogramme.

hist(data)

Même si vous utilisez l’argument breaks pour spécifier un nombre différent de bacs à utiliser, R l’utilisera uniquement comme « suggestion » du nombre de bacs à utiliser.

hist(data, breaks=7)

Cependant, vous pouvez utiliser le code suivant pour forcer R à utiliser un nombre spécifique de cases dans un histogramme :

#create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length.out = 8))

Remarque : Vous devez utiliser une longueur de n+1 pour length.out où n est le nombre de bacs souhaité.

L’exemple suivant montre comment utiliser ce code dans la pratique.

Exemple : spécifier des sauts d’histogramme dans R

Supposons que nous ayons l’ensemble de données suivant dans R avec 16 valeurs :

#create vector of 16 values
data <- c(2, 3, 3, 3, 4, 4, 5, 6, 8, 10, 12, 14, 15, 18, 20, 21)

Si nous utilisons la fonction hist() , R créera l’histogramme suivant avec 5 bins :

#create histogram
hist(data)

Remarque : R a utilisé la règle de Sturges pour déterminer que 5 groupes était le nombre optimal de groupes à utiliser pour visualiser un ensemble de données avec 16 observations.

Si nous essayons d’utiliser l’argument breaks pour spécifier 7 groupes à utiliser dans l’histogramme, R ne prendra cela que comme une « suggestion » et choisira à la place d’utiliser 10 groupes :

#attempt to create histogram with 7 bins
hist(data, breaks=7)

Cependant, nous pouvons utiliser le code suivant pour forcer R à utiliser 7 bins dans l’histogramme :

#create histogram with 7 bins
hist(data, breaks = seq(min(data), max(data), length.out = 8))

Notez que le résultat est un histogramme avec 7 cases équidistantes.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans R :

Comment créer un histogramme de fréquence relative dans R
Comment tracer plusieurs histogrammes dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *