Comment tracer la distribution des valeurs de colonne dans R
Vous pouvez utiliser les méthodes suivantes pour tracer une distribution de valeurs de colonne dans R :
Méthode 1 : tracer la distribution des valeurs à l’aide du tracé de densité
plot(density(df$my_column))
Méthode 2 : tracer la distribution des valeurs à l’aide d’un histogramme
hist(df$my_column)
Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant
#create data frame df = data.frame(team=rep(c('A', 'B'), each=10), points=c(3, 3, 4, 5, 4, 7, 7, 7, 10, 11, 8, 7, 8, 9, 12, 12, 12, 14, 15, 17)) #view data frame df team points 1 A 3 2 A 3 3 A 4 4 A 5 5 A 4 6 A 7 7 A 7 8 A 7 9 A 10 10 A 11 11 B 8 12 B 7 13 B 8 14 B 9 15 B 12 16 B 12 17 B 12 18 B 14 19 B 15 20 B 17
Exemple 1 : tracer la distribution des valeurs à l’aide du tracé de densité
Le code suivant montre comment tracer la distribution des valeurs dans la colonne des points à l’aide d’un tracé de densité :
#plot distribution of values in points column
plot(density(df$points))
Cette syntaxe produit une courbe lisse qui résume la distribution des valeurs d’une variable.
Notez que nous pouvons également modifier le titre, les étiquettes des axes et la couleur de la ligne dans le tracé de densité si nous le souhaitons :
#plot distribution of values in points column plot(density(df$points), col='red', main='Density Plot of Points', xlab='Points')
Exemple 2 : tracer la distribution des valeurs à l’aide d’un histogramme
Le code suivant montre comment tracer la distribution des valeurs dans la colonne de points à l’aide d’un histogramme :
#plot distribution of values in points column using histogram
hist(df$points)
Un histogramme utilise des barres pour représenter les fréquences des valeurs dans la colonne de points , par opposition à une ligne lisse qui résume la forme de la distribution.
Notez que nous pouvons également modifier le titre, les étiquettes des axes, la couleur et le nombre de sauts utilisés dans l’histogramme :
#plot distribution of values in points column using histogram hist(df$points, main='Histogram of Points', xlab='Points', col='steelblue', breaks=12)
Remarque : Plus la valeur que vous choisissez pour l’argument breaks est grande, plus il y aura de barres dans l’histogramme.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :
Comment ajouter une ligne verticale à l’histogramme dans R
Comment créer des tracés de densité de noyau dans R
Comment superposer des tracés de densité dans ggplot2