Jak przeprowadzić grupowanie danych w r: z przykładami
Do grupowania danych w R można użyć jednej z dwóch metod:
Metoda 1: użyj funkcji wycinania().
library (dplyr) #perform binning with custom breaks df %>% mutate(new_bin = cut(variable_name, breaks=c(0, 10, 20, 30))) #perform binning with specific number of bins df %>% mutate(new_bin = cut(variable_name, breaks= 3 ))
Metoda 2: użyj funkcji ntile().
library (dplyr) #perform binning with specific number of bins df %>% mutate(new_bin = ntile(variable_name, n= 3 ))
Poniższe przykłady pokazują, jak w praktyce zastosować każdą metodę z następującą ramką danych:
#create data frame
df <- data. frame (points=c(4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25),
assists=c(2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8),
rebounds=c(7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9))
#view head of data frame
head(df)
points assists rebounds
1 4 2 7
2 4 5 7
3 7 4 4
4 8 7 6
5 12 7 3
6 13 8 8
Przykład 1: Wykonaj grupowanie danych za pomocą funkcji cut().
Poniższy kod pokazuje, jak przeprowadzić grupowanie danych na zmiennej punkty przy użyciu funkcji cut() z określonymi znakami przerwania:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks=c(0, 10, 20, 30)))
points assists rebounds points_bin
1 4 2 7 (0.10]
2 4 5 7 (0.10]
3 7 4 4 (0.10]
4 8 7 6 (0.10]
5 12 7 3 (10.20]
6 13 8 8 (10.20]
7 15 5 9 (10.20]
8 18 4 9 (10.20]
9 22 5 12 (20.30]
10 23 11 11 (20.30]
11 23 13 8 (20.30]
12 25 8 9 (20.30]
Należy zauważyć, że każdy wiersz w ramce danych został umieszczony w jednej z trzech grup w oparciu o wartość kolumny punktowej.
Moglibyśmy również określić liczbę skoków, które zostaną użyte do utworzenia pól o równej szerokości, przechodząc od wartości minimalnej do maksymalnej wartości kolumny punktów :
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks= 3 ))
points assists rebounds points_bin
1 4 2 7 (3.98.11]
2 4 5 7 (3.98.11]
3 7 4 4 (3.98.11]
4 8 7 6 (3.98.11]
5 12 7 3 (11.18]
6 13 8 8 (11.18]
7 15 5 9 (11.18]
8 18 4 9 (11.18]
9 22 5 12 (18.25]
10 23 11 11 (18.25]
11 23 13 8 (18.25]
12 25 8 9 (18.25]
Przykład 2: Wykonaj grupowanie danych za pomocą funkcji ntile().
Poniższy kod pokazuje, jak przeprowadzić grupowanie danych na zmiennej punkty przy użyciu funkcji ntile() z określoną liczbą wynikowych grup:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = ntile(points, n= 3 ))
points assists rebounds points_bin
1 4 2 7 1
2 4 5 7 1
3 7 4 4 1
4 8 7 6 1
5 12 7 3 2
6 13 8 8 2
7 15 5 9 2
8 18 4 9 2
9 22 5 12 3
10 23 11 11 3
11 23 13 8 3
12 25 8 9 3
Należy pamiętać, że każdemu wierszowi przypisano pole od 1 do 3 w oparciu o wartość kolumny punktowej .
Najlepiej jest używać funkcji ntile() , jeśli chcesz, aby w każdym wierszu była wyświetlana wartość całkowita, a nie odstęp wskazujący zakres przedziału.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:
Jak warunkowo zastąpić wartości w ramce danych w R
Jak obliczyć średnią obciętą w R
Jak obliczyć średnią warunkową w R