Jak korzystać z funkcji spread w r (z przykładami)

Przez Benjamin Anderson 24 lipca, 2023 Przewodnik 0 komentarzy

Funkcji spread() w pakiecie Tidyr można użyć do „rozłożenia” pary klucz-wartość na wiele kolumn.

Ta funkcja wykorzystuje następującą podstawową składnię:

spread (dane, wartość klucza)

Złoto:

dane : Nazwa ramki danych
key : Kolumna, której wartości staną się nazwami zmiennych
wartość : Kolumna, w której zostaną wypełnione wartości pod nowymi zmiennymi utworzonymi z klucza

Poniższe przykłady pokazują, jak w praktyce wykorzystać tę funkcję.

Przykład 1: Rozłóż wartości w dwóch kolumnach

Załóżmy, że mamy następującą ramkę danych w R:

 #create data frame
df <- data. frame (player= rep (c(' A ', ' B '), each= 4 ),
                 year= rep (c(1, 1, 2, 2), times= 2 ),
                 stat= rep (c(' points ', ' assists '), times= 4 ),
                 amount=c(14, 6, 18, 7, 22, 9, 38, 4))

#view data frame
df

  player year stat amount
1 A 1 points 14
2 A 1 assists 6
3 A 2 points 18
4 A 2 assists 7
5 B 1 points 22
6 B 1 assists 9
7 B 2 points 38
8 B 2 assists 4

Możemy użyć funkcji spread() do przekształcenia wartości kolumn statystyk na ich własne kolumny:

 library (tidyr)

#spread stat column across multiple columns
spread(df, key=stat, value=amount)

  player year assists points
1 to 1 6 14
2 to 2 7 18
3 B 1 9 22
4 B 2 4 38

Przykład 2: Rozłóż wartości na więcej niż dwie kolumny

Załóżmy, że mamy następującą ramkę danych w R:

 #create data frame
df2 <- data. frame (player= rep (c(' A '), times= 8 ),
                 year= rep (c(1, 2), each= 4 ),
                 stat= rep (c(' points ', ' assists ', ' steals ', ' blocks '), times= 2 ),
                 amount=c(14, 6, 2, 1, 29, 9, 3, 4))

#view data frame
df2

  player year stat amount
1 A 1 points 14
2 A 1 assists 6
3 A 1 steals 2
4 A 1 blocks 1
5 A 2 points 29
6 A 2 assists 9
7 A 2 steals 3
8 A 2 blocks 4

Za pomocą funkcji spread() możemy przekształcić cztery unikalne wartości w kolumnie stat w cztery nowe kolumny:

 library (tidyr)

#spread stat column across multiple columns
spread(df2, key=stat, value=amount)

  player year assists blocks points steals
1 A 1 6 1 14 2
2 A 2 9 4 29 3

Dodatkowe zasoby

Celem pakietu Tidyr jest tworzenie „uporządkowanych” danych, które charakteryzują się następującymi cechami:

Każda kolumna jest zmienną.
Każda linia jest obserwacją.
Każda komórka ma unikalną wartość.

Pakiet Tidyr wykorzystuje cztery główne funkcje do tworzenia uporządkowanych danych:

1. Funkcja spread() .

2. Funkcja zbierania() .

3. Funkcja oddzielna() .

4. Funkcja unit() .

Jeśli opanujesz te cztery funkcje, będziesz w stanie stworzyć „porządne” dane z dowolnej ramki danych.

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

Przykład 1: Rozłóż wartości w dwóch kolumnach

Przykład 2: Rozłóż wartości na więcej niż dwie kolumny

Dodatkowe zasoby

o autorze

Dr Benjamin Anderson

Dodaj komentarz