Как использовать функцию распространения в r (с примерами)

К бенджамин андерсон 24 июля, 2023 Гид 0 комментариев

Функцию распространения() в пакете Tidyr можно использовать для «распределения» пары ключ-значение по нескольким столбцам.

Эта функция использует следующий базовый синтаксис:

распространение (данные, ключевое значение)

Золото:

data : Имя фрейма данных.
key : Столбец, значения которого станут именами переменных
value : Столбец, в который будут заполнены значения под новыми переменными, созданными из ключа

Следующие примеры показывают, как использовать эту функцию на практике.

Пример 1: Распределите значения по двум столбцам

Предположим, у нас есть следующий кадр данных в R:

 #create data frame
df <- data. frame (player= rep (c(' A ', ' B '), each= 4 ),
                 year= rep (c(1, 1, 2, 2), times= 2 ),
                 stat= rep (c(' points ', ' assists '), times= 4 ),
                 amount=c(14, 6, 18, 7, 22, 9, 38, 4))

#view data frame
df

  player year stat amount
1 A 1 points 14
2 A 1 assists 6
3 A 2 points 18
4 A 2 assists 7
5 B 1 points 22
6 B 1 assists 9
7 B 2 points 38
8 B 2 assists 4

Мы можем использовать функцию распространения() для преобразования значений столбца статистики в отдельные столбцы:

 library (tidyr)

#spread stat column across multiple columns
spread(df, key=stat, value=amount)

  player year assists points
1 to 1 6 14
2 to 2 7 18
3 B 1 9 22
4 B 2 4 38

Пример 2. Распределение значений по более чем двум столбцам

Предположим, у нас есть следующий кадр данных в R:

 #create data frame
df2 <- data. frame (player= rep (c(' A '), times= 8 ),
                 year= rep (c(1, 2), each= 4 ),
                 stat= rep (c(' points ', ' assists ', ' steals ', ' blocks '), times= 2 ),
                 amount=c(14, 6, 2, 1, 29, 9, 3, 4))

#view data frame
df2

  player year stat amount
1 A 1 points 14
2 A 1 assists 6
3 A 1 steals 2
4 A 1 blocks 1
5 A 2 points 29
6 A 2 assists 9
7 A 2 steals 3
8 A 2 blocks 4

Мы можем использовать функцию распространения() , чтобы преобразовать четыре уникальных значения в столбце статистики в четыре новых столбца:

 library (tidyr)

#spread stat column across multiple columns
spread(df2, key=stat, value=amount)

  player year assists blocks points steals
1 A 1 6 1 14 2
2 A 2 9 4 29 3

Дополнительные ресурсы

Целью пакета Tidyr является создание «аккуратных» данных, которые имеют следующие характеристики:

Каждый столбец является переменной.
Каждая строка — это наблюдение.
Каждая ячейка представляет собой уникальное значение.

Пакет Tidyr использует четыре основные функции для создания упорядоченных данных:

1. Функция распространения() .

2. Функция сбора() .

3. Функция отдельный() .

4. Функция unit() .

Если вы овладеете этими четырьмя функциями, вы сможете создавать «аккуратные» данные из любого фрейма данных.

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше

Пример 1: Распределите значения по двум столбцам

Пример 2. Распределение значений по более чем двум столбцам

Дополнительные ресурсы

Об авторе

бенджамин андерсон

Добавить комментарий