Comment tracer la distribution des valeurs de colonne dans R



Vous pouvez utiliser les méthodes suivantes pour tracer une distribution de valeurs de colonne dans R :

Méthode 1 : tracer la distribution des valeurs à l’aide du tracé de densité

plot(density(df$my_column))

Méthode 2 : tracer la distribution des valeurs à l’aide d’un histogramme

hist(df$my_column)

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant

#create data frame
df = data.frame(team=rep(c('A', 'B'), each=10),
                points=c(3, 3, 4, 5, 4, 7, 7, 7, 10, 11, 8,
                         7, 8, 9, 12, 12, 12, 14, 15, 17))

#view data frame
df

   team points
1     A      3
2     A      3
3     A      4
4     A      5
5     A      4
6     A      7
7     A      7
8     A      7
9     A     10
10    A     11
11    B      8
12    B      7
13    B      8
14    B      9
15    B     12
16    B     12
17    B     12
18    B     14
19    B     15
20    B     17

Exemple 1 : tracer la distribution des valeurs à l’aide du tracé de densité

Le code suivant montre comment tracer la distribution des valeurs dans la colonne des points à l’aide d’un tracé de densité :

#plot distribution of values in points column
plot(density(df$points)) 

Cette syntaxe produit une courbe lisse qui résume la distribution des valeurs d’une variable.

Notez que nous pouvons également modifier le titre, les étiquettes des axes et la couleur de la ligne dans le tracé de densité si nous le souhaitons :

#plot distribution of values in points column
plot(density(df$points), col='red', main='Density Plot of Points', xlab='Points')

tracer la distribution des valeurs de colonne dans R à l'aide du tracé de densité

Exemple 2 : tracer la distribution des valeurs à l’aide d’un histogramme

Le code suivant montre comment tracer la distribution des valeurs dans la colonne de points à l’aide d’un histogramme :

#plot distribution of values in points column using histogram
hist(df$points)

Un histogramme utilise des barres pour représenter les fréquences des valeurs dans la colonne de points , par opposition à une ligne lisse qui résume la forme de la distribution.

Notez que nous pouvons également modifier le titre, les étiquettes des axes, la couleur et le nombre de sauts utilisés dans l’histogramme :

#plot distribution of values in points column using histogram
hist(df$points, main='Histogram of Points', xlab='Points', col='steelblue', breaks=12)

tracer la distribution des valeurs de colonne dans R à l'aide de l'histogramme

Remarque : Plus la valeur que vous choisissez pour l’argument breaks est grande, plus il y aura de barres dans l’histogramme.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :

Comment ajouter une ligne verticale à l’histogramme dans R
Comment créer des tracés de densité de noyau dans R
Comment superposer des tracés de densité dans ggplot2

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *