Comment calculer l’écart type des colonnes dans R

Par Dr. Benjamin Anderson juillet 23, 2023 Guide 0 commentaire

Vous pouvez utiliser la syntaxe de base suivante pour calculer l’écart type des colonnes dans R :

#calculate standard deviation of one column
sd(df$col1)

#calculate standard deviation of all columns
sapply(df, sd)

#calculate standard deviation of specific columns
sapply(df[c('col1', 'col2', 'col5')], sd)

Les exemples suivants montrent comment utiliser cette syntaxe en pratique avec le bloc de données suivant :

#create data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 91, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#view data frame
df

  team points assists rebounds
1    A     99      33       30
2    B     91      28       28
3    C     86      31       24
4    D     88      39       24
5    E     95      34       28

Exemple 1 : écart type d’une colonne

Le code suivant montre comment calculer l’écart type d’une colonne dans le bloc de données :

#calculate standard deviation of 'points' column
sd(df$points)

[1] 5.263079

L’écart type des valeurs dans la colonne « points » est de 5,263079 .

Exemple 2 : écart type de toutes les colonnes

Le code suivant montre comment calculer l’écart type de chaque colonne du bloc de données :

#calculate standard deviation of all columns in data frame
sapply(df, sd)

    team   points  assists rebounds 
      NA 5.263079 4.062019 2.683282 
Warning message:
In var(if (is.vector(x) || is.factor(x)) x else as.double(x), na.rm = na.rm) :
  NAs introduced by coercion

Puisque la colonne « équipe » est une variable de caractère, R renvoie NA et nous donne un avertissement.

Cependant, il calcule avec succès l’écart type des trois autres colonnes numériques.

Exemple 3 : écart type de colonnes spécifiques

Le code suivant montre comment calculer l’écart type de colonnes spécifiques dans le bloc de données :

#calculate standard deviation of 'points' and 'rebounds' columns
sapply(df[c('points', 'rebounds')], sd)

  points rebounds 
5.263079 2.683282

Notez que nous pourrions également utiliser les valeurs d’index de colonne pour sélectionner des colonnes :

#calculate standard deviation of 'points' and 'rebounds' columns
sapply(df[c(2, 4)], sd)

  points rebounds 
5.263079 2.683282

Ressources additionnelles

Les didacticiels suivants expliquent comment exécuter d’autres fonctions courantes dans R :

Comment calculer l’écart type des lignes dans R
Comment calculer la moyenne de plusieurs colonnes dans R
Comment trouver la valeur maximale sur plusieurs colonnes dans R
Comment sélectionner des colonnes spécifiques dans R

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus