Un guide complet de l’ensemble de données Iris dans R



L’ensemble de données iris est un ensemble de données intégré dans R qui contient des mesures sur 4 attributs différents (en centimètres) pour 50 fleurs de 3 espèces différentes.

Ce didacticiel explique comment explorer et résumer un ensemble de données dans R, en utilisant l’ensemble de données iris comme exemple.

Connexe : Un guide complet de l’ensemble de données mtcars dans R

Charger l’ensemble de données Iris

Puisque l’ensemble de données iris est un ensemble de données intégré dans R, nous pouvons le charger en utilisant la commande suivante :

data(iris)

Nous pouvons jeter un œil aux six premières lignes de l’ensemble de données en utilisant la fonction head() :

#view first six rows of iris dataset
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

Résumer l’ensemble de données Iris

Nous pouvons utiliser la fonction summary() pour résumer rapidement chaque variable de l’ensemble de données :

#summarize iris dataset
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  

Pour chacune des variables numériques, nous pouvons voir les informations suivantes :

  • Min : La valeur minimale.
  • 1er Qu : La valeur du premier quartile (25ème centile).
  • Médiane : La valeur médiane.
  • Moyenne : La valeur moyenne.
  • 3ème Qu : La valeur du troisième quartile (75ème centile).
  • Max : La valeur maximale.

Pour la seule variable catégorielle de l’ensemble de données (Espèce), nous voyons un décompte de fréquence de chaque valeur :

  • setosa : Cette espèce est présente 50 fois.
  • versicolor : Cette espèce est présente 50 fois.
  • virginica : Cette espèce est présente 50 fois.

Nous pouvons utiliser la fonction dim() pour obtenir les dimensions de l’ensemble de données en termes de nombre de lignes et de colonnes :

#display rows and columns
dim(iris)

[1] 150   5

Nous pouvons voir que l’ensemble de données comporte 150 lignes et 5 colonnes.

Nous pouvons également utiliser la fonction names() pour afficher les noms de colonnes du bloc de données :

#display column names
names(iris)

[1] "Sepal.Length" "Sepal.Width"  "Petal.Length" "Petal.Width"  "Species"     

Visualisez l’ensemble de données Iris

Nous pouvons également créer des tracés pour visualiser les valeurs de l’ensemble de données.

Par exemple, nous pouvons utiliser la fonction hist() pour créer un histogramme des valeurs d’une certaine variable :

#create histogram of values for sepal length
hist(iris$Sepal.Length,
     col='steelblue',
     main='Histogram',
     xlab='Length',
     ylab='Frequency')

Nous pouvons également utiliser la fonction plot() pour créer un nuage de points de toute combinaison de variables par paires :

#create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
     col='steelblue',
     main='Scatterplot',
     xlab='Sepal Width',
     ylab='Sepal Length',
     pch=19)

On peut également utiliser la fonction boxplot() pour créer un boxplot par groupe :

#create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
        data=iris,
        main='Sepal Length by Species',
        xlab='Species',
        ylab='Sepal Length',
        col='steelblue',
        border='black')

L’axe des x affiche les trois espèces et l’axe des y affiche la distribution des valeurs de longueur des sépales pour chaque espèce.

Ce type de tracé nous permet de constater rapidement que la longueur des sépales a tendance à être la plus grande pour l’espèce virginica et la plus petite pour l’espèce setosa.

Ressources additionnelles

Les didacticiels suivants expliquent plus en détail comment résumer des ensembles de données dans R :

Le moyen le plus simple de créer des tableaux récapitulatifs dans R
Comment calculer le résumé de cinq nombres dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *