R'de veri gruplaması nasıl yapılır: örneklerle
R’de veri gruplandırmayı gerçekleştirmek için iki yöntemden birini kullanabilirsiniz:
Yöntem 1: Cut() işlevini kullanın
library (dplyr) #perform binning with custom breaks df %>% mutate(new_bin = cut(variable_name, breaks=c(0, 10, 20, 30))) #perform binning with specific number of bins df %>% mutate(new_bin = cut(variable_name, breaks= 3 ))
Yöntem 2: ntile() işlevini kullanın
library (dplyr) #perform binning with specific number of bins df %>% mutate(new_bin = ntile(variable_name, n= 3 ))
Aşağıdaki örnekler, her yöntemin pratikte aşağıdaki veri çerçevesiyle nasıl kullanılacağını gösterir:
#create data frame
df <- data. frame (points=c(4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25),
assists=c(2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8),
rebounds=c(7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9))
#view head of data frame
head(df)
points assists rebounds
1 4 2 7
2 4 5 7
3 7 4 4
4 8 7 6
5 12 7 3
6 13 8 8
Örnek 1: Cut() işleviyle veri gruplandırmayı gerçekleştirin
Aşağıdaki kod, belirli kesme işaretleriyle Cut() işlevini kullanarak puan değişkeninde veri gruplandırmanın nasıl gerçekleştirileceğini gösterir:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks=c(0, 10, 20, 30)))
points assists rebounds points_bin
1 4 2 7 (0.10]
2 4 5 7 (0.10]
3 7 4 4 (0.10]
4 8 7 6 (0.10]
5 12 7 3 (10.20]
6 13 8 8 (10.20]
7 15 5 9 (10.20]
8 18 4 9 (10.20]
9 22 5 12 (20.30]
10 23 11 11 (20.30]
11 23 13 8 (20.30]
12 25 8 9 (20.30]
Veri çerçevesindeki her satırın, nokta sütununun değerine göre üç gruptan birine yerleştirildiğini unutmayın.
Nokta sütununun minimum değerinden maksimum değerine kadar eşit genişlikte kutular oluşturmak için kullanılacak atlama sayısını da belirtebiliriz:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks= 3 ))
points assists rebounds points_bin
1 4 2 7 (3.98.11]
2 4 5 7 (3.98.11]
3 7 4 4 (3.98.11]
4 8 7 6 (3.98.11]
5 12 7 3 (11.18]
6 13 8 8 (11.18]
7 15 5 9 (11.18]
8 18 4 9 (11.18]
9 22 5 12 (18.25]
10 23 11 11 (18.25]
11 23 13 8 (18.25]
12 25 8 9 (18.25]
Örnek 2: Ntile() işleviyle veri gruplandırmayı gerçekleştirme
Aşağıdaki kod, belirli sayıda sonuç grubuyla ntile() işlevini kullanarak point değişkeninde veri gruplandırmanın nasıl gerçekleştirileceğini gösterir:
library (dplyr)
#perform data binning on variable points
df %>% mutate(points_bin = ntile(points, n= 3 ))
points assists rebounds points_bin
1 4 2 7 1
2 4 5 7 1
3 7 4 4 1
4 8 7 6 1
5 12 7 3 2
6 13 8 8 2
7 15 5 9 2
8 18 4 9 2
9 22 5 12 3
10 23 11 11 3
11 23 13 8 3
12 25 8 9 3
Her satıra, nokta sütunu değerine göre 1’den 3’e kadar bir kutu atandığını unutmayın.
Bin aralığını belirten bir aralık yerine her satırda bir tamsayı değerinin görüntülenmesini istediğinizde ntile() işlevini kullanmak en iyisidir.
Ek kaynaklar
Aşağıdaki eğitimlerde R’de diğer ortak görevlerin nasıl gerçekleştirileceği açıklanmaktadır:
R’deki veri çerçevesindeki değerler koşullu olarak nasıl değiştirilir?
R’de kırpılmış ortalama nasıl hesaplanır
R’de koşullu ortalama nasıl hesaplanır