R'de veri gruplaması nasıl yapılır: örneklerle


R’de veri gruplandırmayı gerçekleştirmek için iki yöntemden birini kullanabilirsiniz:

Yöntem 1: Cut() işlevini kullanın

 library (dplyr)

#perform binning with custom breaks
df %>% mutate(new_bin = cut(variable_name, breaks=c(0, 10, 20, 30)))

#perform binning with specific number of bins
df %>% mutate(new_bin = cut(variable_name, breaks= 3 ))

Yöntem 2: ntile() işlevini kullanın

 library (dplyr)

#perform binning with specific number of bins
df %>% mutate(new_bin = ntile(variable_name, n= 3 ))

Aşağıdaki örnekler, her yöntemin pratikte aşağıdaki veri çerçevesiyle nasıl kullanılacağını gösterir:

 #create data frame
df <- data. frame (points=c(4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25),
                 assists=c(2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8),
                 rebounds=c(7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9))

#view head of data frame
head(df)

  points assists rebounds
1 4 2 7
2 4 5 7
3 7 4 4
4 8 7 6
5 12 7 3
6 13 8 8

Örnek 1: Cut() işleviyle veri gruplandırmayı gerçekleştirin

Aşağıdaki kod, belirli kesme işaretleriyle Cut() işlevini kullanarak puan değişkeninde veri gruplandırmanın nasıl gerçekleştirileceğini gösterir:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks=c(0, 10, 20, 30)))

   points assists rebounds points_bin
1 4 2 7 (0.10]
2 4 5 7 (0.10]
3 7 4 4 (0.10]
4 8 7 6 (0.10]
5 12 7 3 (10.20]
6 13 8 8 (10.20]
7 15 5 9 (10.20]
8 18 4 9 (10.20]
9 22 5 12 (20.30]
10 23 11 11 (20.30]
11 23 13 8 (20.30]
12 25 8 9 (20.30]

Veri çerçevesindeki her satırın, nokta sütununun değerine göre üç gruptan birine yerleştirildiğini unutmayın.

Nokta sütununun minimum değerinden maksimum değerine kadar eşit genişlikte kutular oluşturmak için kullanılacak atlama sayısını da belirtebiliriz:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks= 3 ))

   points assists rebounds points_bin
1 4 2 7 (3.98.11]
2 4 5 7 (3.98.11]
3 7 4 4 (3.98.11]
4 8 7 6 (3.98.11]
5 12 7 3 (11.18]
6 13 8 8 (11.18]
7 15 5 9 (11.18]
8 18 4 9 (11.18]
9 22 5 12 (18.25]
10 23 11 11 (18.25]
11 23 13 8 (18.25]
12 25 8 9 (18.25]

Örnek 2: Ntile() işleviyle veri gruplandırmayı gerçekleştirme

Aşağıdaki kod, belirli sayıda sonuç grubuyla ntile() işlevini kullanarak point değişkeninde veri gruplandırmanın nasıl gerçekleştirileceğini gösterir:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = ntile(points, n= 3 ))

   points assists rebounds points_bin
1 4 2 7 1
2 4 5 7 1
3 7 4 4 1
4 8 7 6 1
5 12 7 3 2
6 13 8 8 2
7 15 5 9 2
8 18 4 9 2
9 22 5 12 3
10 23 11 11 3
11 23 13 8 3
12 25 8 9 3

Her satıra, nokta sütunu değerine göre 1’den 3’e kadar bir kutu atandığını unutmayın.

Bin aralığını belirten bir aralık yerine her satırda bir tamsayı değerinin görüntülenmesini istediğinizde ntile() işlevini kullanmak en iyisidir.

Ek kaynaklar

Aşağıdaki eğitimlerde R’de diğer ortak görevlerin nasıl gerçekleştirileceği açıklanmaktadır:

R’deki veri çerçevesindeki değerler koşullu olarak nasıl değiştirilir?
R’de kırpılmış ortalama nasıl hesaplanır
R’de koşullu ortalama nasıl hesaplanır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir