Jak korzystać z funkcji coalesce() w dplyr (z przykładami)

Przez Benjamin Anderson 17 lipca, 2023 Przewodnik 0 komentarzy

Możesz użyć funkcji Coalesce() z pakietu dplyr w R, aby zwrócić pierwszą brakującą wartość w każdej pozycji jednego lub większej liczby wektorów.

Istnieją dwa typowe sposoby korzystania z tej funkcji:

Metoda 1: Zamień brakujące wartości w wektorze

 library (dplyr)

#replace missing values with 100
coalescence(x, 100)

Metoda 2: Zwróć pierwszą brakującą wartość w kolumnach ramki danych

 library (dplyr)

#return first non-missing value at each position across columns A and B
coalesce(df$A, df$B)

Poniższe przykłady pokazują, jak zastosować każdą metodę w praktyce.

Przykład 1: Użyj funkcji Coalesce(), aby zastąpić brakujące wartości w wektorze

Poniższy kod pokazuje, jak użyć funkcji Coalesce() do zastąpienia wszystkich brakujących wartości w wektorze wartością 100:

 library (dplyr)

#create vector of values
x <- c(4, NA, 12, NA, 5, 14, 19)

#replace missing values with 100
coalescence(x, 100)

[1] 4 100 12 100 5 14 19

Należy zauważyć, że każda wartość NA w oryginalnym wektorze została zastąpiona wartością 100 .

Przykład 2: Użyj funkcji Coalesce(), aby zwrócić pierwszą brakującą wartość w kolumnach ramki danych

Załóżmy, że mamy następującą ramkę danych w R:

 #create data frame
df <- data. frame (A=c(10, NA, 5, 6, NA, 7, NA),
                 B=c(14, 9, NA, 3, NA, 10, 4))

#view data frame
df

   AB
1 10 14
2 NA 9
3 5 NA
4 6 3
5 NA NA
6 7 10
7 NA 4

Poniższy kod pokazuje, jak używać funkcji Coalesce() do zwrócenia pierwszej wartości, której nie brakuje w kolumnach A i B ramki danych:

 library (dplyr)

#create new column that coalesces values from columns A and B
df$C <- coalesce(df$A, df$B)

#view updated data frame
df

   ABC
1 10 14 10
2 NA 9 9
3 5 NA 5
4 6 3 6
5 NA NA NA
6 7 10 7
7 NA 4 4

Wynikowa kolumna C zawiera pierwszą brakującą wartość w kolumnach A i B.

Należy zauważyć, że wiersz 5 ma wartość NA w kolumnie C, ponieważ kolumny A i B miały w tym wierszu wartości NA.

Możemy po prostu dodać dodatkową wartość do funkcji Coalesce() , aby użyć jej jako wartości, jeśli w każdej kolumnie znajdują się wartości NA:

 library (dplyr)

#create new column that coalesces values from columns A and B
df$C <- coalesce(df$A, df$B, 100)

#view updated data frame
df

   ABC
1 10 14 10
2 NA 9 9
3 5 NA 5
4 6 3 6
5 NA NA 100
6 7 10 7
7 NA 4 4

Należy zauważyć, że wartość NA w wierszu 5 kolumny C została teraz zastąpiona wartością 100 .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe funkcje za pomocą dplyr:

Jak usunąć wiersze za pomocą dplyr
Jak rozmieścić wiersze za pomocą dplyr
Jak filtrować według wielu warunków za pomocą dplyr

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

Przykład 1: Użyj funkcji Coalesce(), aby zastąpić brakujące wartości w wektorze

Przykład 2: Użyj funkcji Coalesce(), aby zwrócić pierwszą brakującą wartość w kolumnach ramki danych

Dodatkowe zasoby

o autorze

Dr Benjamin Anderson

Dodaj komentarz