Как рассчитать стандартное отклонение по группе в r (с примерами)

К бенджамин андерсон 15 июля, 2023 Гид 0 комментариев

Вы можете использовать любой из следующих методов для расчета стандартного отклонения по группе в R:

Способ 1: используйте базу R

 aggregate(df$col_to_aggregate, list(df$col_to_group_by), FUN=sd)

Способ 2: используйте dplyr

 library (dplyr)

df %>%
  group_by(col_to_group_by) %>%
  summarise_at(vars(col_to_aggregate), list(name=sd))

Способ 3: использовать data.table

 library (data.table)

setDT(df)

dt[ ,list(sd=sd(col_to_aggregate)), by=col_to_group_by]

В следующих примерах показано, как использовать каждый из этих методов на практике со следующим фреймом данных в R:

 #create data frame
df <- data. frame (team=rep(c(' A ', ' B ', ' C '), each= 6 ),
                 points=c(8, 10, 12, 12, 14, 15, 10, 11, 12,
                          18, 22, 24, 3, 5, 5, 6, 7, 9))

#view data frame
df

   team points
1 to 8
2 to 10
3 to 12
4 to 12
5 to 14
6 to 15
7 B 10
8 B 11
9 B 12
10 B 18
11 B 22
12 B 24
13 C 3
14 C 5
15 C 5
16 C 6
17 C 7
18 C 9

Метод 1. Рассчитайте стандартное отклонение по группам, используя базу R.

Следующий код показывает, как использовать функцию Aggregate() базы данных R для расчета стандартного отклонения очков, набранных командой:

 #calculate standard deviation of points by team
aggregate(df$points, list(df$team), FUN=sd)

  Group.1 x
1 A 2.562551
2 B 6.013873
3 C 2.041241

Метод 2. Рассчитайте стандартное отклонение по группе, используя dplyr.

Следующий код показывает, как использовать функции group_by () и summarise_at() из пакета dplyr для расчета стандартного отклонения очков, набранных командой:

 library (dplyr)

#calculate standard deviation of points scored by team
df %>%
  group_by(team) %>%
  summarise_at(vars(points), list(name=sd))

# A tibble: 3 x 2
  team name
   
1 to 2.56
2 B 6.01
3C 2.04

Метод 3. Рассчитайте стандартное отклонение по группе, используя data.table.

Следующий код показывает, как вычислить стандартное отклонение очков, набранных командой, с помощью функций пакета data.table :

 library (data.table)

#convert data frame to data table 
setDT(df)

#calculate standard deviation of points scored by team
df[,list(sd=sd(points)), by=team]

   team sd
1: A 2.562551
2: B 6.013873
3:C2.041241

Обратите внимание, что все три метода возвращают одинаковые результаты.

Примечание . Если вы работаете с очень большим фреймом данных, рекомендуется использовать подход dplyr или data.table , поскольку эти пакеты работают намного быстрее, чем базовый R.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как рассчитать среднее значение на группу в R
Как рассчитать сумму по группе в R
Как рассчитать квантили по группам в R

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше