Diagramme de points et histogramme : quelle est la différence ?
Deux tracés couramment utilisés pour visualiser la distribution des valeurs dans un ensemble de données sont les tracés de points et les histogrammes .
Un tracé de points affiche les valeurs de données individuelles le long de l’axe des X et utilise des points pour représenter les fréquences de chaque valeur individuelle.
Un histogramme affiche les plages de données le long de l’axe des X et utilise des barres rectangulaires pour représenter les fréquences des valeurs appartenant à chaque plage.
L’exemple suivant montre comment créer un tracé de points et un histogramme pour le même ensemble de données.
Exemple : création d’un tracé de points et d’un histogramme pour le même ensemble de données
Supposons que nous ayons l’ensemble de données suivant avec 18 valeurs :
Données : 1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10
Voici à quoi ressemblerait un diagramme de points pour cet ensemble de données :
L’axe des x montre les valeurs de données individuelles et l’axe des y montre la fréquence de chaque valeur.
Par exemple, nous pouvons voir que la valeur « 2 » apparaît trois fois dans l’ensemble de données car il y a trois points au-dessus. De même, nous pouvons voir que la valeur « 3 » n’apparaît qu’une seule fois car il n’y a qu’un seul point au-dessus.
Et voici à quoi ressemblerait un histogramme pour cet ensemble de données :
L’axe des X montre des plages de valeurs (0-2, 2-4, 4-6, 6-8, 8-10) et l’axe des Y utilise des barres rectangulaires pour représenter la fréquence des valeurs individuelles de l’ensemble de données qui entrent dans chaque gamme.
Par exemple, nous pouvons voir que sept valeurs sont comprises entre 0 et 2, deux valeurs sont comprises entre 2 et 4, et ainsi de suite.
Bonus : Pour ceux qui sont curieux, nous avons utilisé le code R suivant pour créer le dot plot et l’histogramme présentés ci-dessus :
#define dataset data <- c(1, 1, 1, 1, 2, 2, 2, 3, 4, 5, 5, 6, 6, 6, 6, 7, 8, 10) #create dot plot stripchart(data, method = "stack", offset = .5, at = 0, pch = 19, cex=5, col = "steelblue", main = "Dot Plot", xlab = "Data Values", ylab="Frequency") #create histogram hist(data, col='steelblue', main='Histogram', xlab='Data Values')
Diagramme de points ou histogramme : lequel devriez-vous utiliser ?
Comme mentionné précédemment, un diagramme de points et un histogramme peuvent être utilisés pour visualiser la distribution des valeurs dans un ensemble de données.
En règle générale, nous utilisons généralement des diagrammes de points lorsque notre ensemble de données est petit, car cela nous permet de voir exactement combien de fois chaque valeur individuelle apparaît.
À l’inverse, nous utilisons généralement des histogrammes lorsque notre ensemble de données est volumineux, car il est fastidieux de créer un point pour représenter chaque valeur individuelle d’un grand ensemble de données.
Gardez à l’esprit que le seul inconvénient de l’utilisation d’un histogramme est que nous ne pouvons pas dire exactement combien de fois chaque valeur individuelle apparaît.
Par exemple, dans l’histogramme précédent, nous avons vu que sept valeurs étaient comprises entre 0 et 2, mais nous ne savons pas exactement combien de valeurs étaient égales à 1 et combien de valeurs étaient égales à 2.
Si nous souhaitons simplement comprendre la « forme » générale d’une distribution, alors ce n’est généralement pas grave que nous ne connaissions pas les valeurs individuelles d’un ensemble de données.
Gardez également à l’esprit que nous ne pouvons pas calculer la médiane ou la moyenne exacte en regardant simplement un histogramme, car nous ne connaissons pas les valeurs individuelles.
Ressources additionnelles
Les didacticiels suivants offrent des informations supplémentaires sur les histogrammes :
Comment estimer les histogrammes moyen et médian
Comment décrire la forme des histogrammes
Comment créer des histogrammes dans R
Comment créer un histogramme en Python
Les didacticiels suivants offrent des informations supplémentaires sur les tracés de points :
Comment trouver le centre et la propagation d’un tracé de points
Comment créer un tracé de points dans Google Sheets
Comment créer un tracé de points dans Excel
Comment créer un tracé de points dans R