Tam kılavuz: r'de veriler nasıl gruplandırılır ve özetlenir


Verileri analiz ederken gerçekleştireceğiniz en yaygın görevlerden ikisi, verileri gruplamak ve özetlemektir.

Neyse ki, R’deki dplyr paketi verileri hızlı bir şekilde gruplamanıza ve özetlemenize olanak tanır.

Bu eğitim, dplyr’ı kullanmaya başlamanız için hızlı bir kılavuz sağlar.

Dplyr paketini kurun ve yükleyin

Dplyr paketindeki işlevleri kullanabilmeniz için öncelikle paketi yüklemeniz gerekir:

 #install dplyr (if not already installed)
install.packages(' dplyr ')

#load dplyr 
library(dplyr)

Daha sonra, mtcars adı verilen yerleşik R veri kümesini kullanarak verileri gruplamak ve özetlemek için dplyr işlevlerinin kullanımına ilişkin birkaç örnek göstereceğiz:

 #obtain rows and columns of mtcars
dim(mtcars)

[1] 32 11

#view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Verileri gruplamak ve özetlemek için kullanacağımız temel sözdizimi şöyledir:

 data %>%
  group_by (col_name) %>%
  summarize (summary_name = summary_function)

Not: Summary() ve summarise() işlevleri eşdeğerdir.

Örnek 1: Gruba göre ortalamayı ve medyanı bulun

Aşağıdaki kod, ortalama ve medyan da dahil olmak üzere gruba göre merkezi eğilim ölçülerinin nasıl hesaplanacağını gösterir:

 #find mean mpg by cylinder
mtcars %>%
  group_by (cyl) %>%
  summarize (mean_mpg = mean(mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl mean_mpg
      
1 4 26.7
2 6 19.7
3 8 15.1

#find median mpg by cylinder
mtcars %>%
  group_by (cyl) %>%
  summarize (median_mpg = median(mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl median_mpg
        
1 4 26  
2 6 19.7
3 8 15.2

Örnek 2: Gruba göre yayılma ölçülerini bulma

Aşağıdaki kod, standart sapma, çeyrekler arası aralık ve mutlak medyan sapma dahil olmak üzere gruba göre dağılım ölçülerinin nasıl hesaplanacağını gösterir:

 #find sd, IQR, and mad by cylinder
mtcars %>%
group_by (cyl) %>%
summarize (sd_mpg = sd(mpg, na.rm = TRUE ),
            iqr_mpg = IQR(mpg, na.rm = TRUE ),
            mad_mpg = mad(mpg, na.rm = TRUE ))

# A tibble: 3 x 4
    cyl sd_mpg iqr_mpg mad_mpg
          
1 4 4.51 7.60 6.52
2 6 1.45 2.35 1.93
3 8 2.56 1.85 1.56

Örnek 3: Numarayı gruba göre bulma

Aşağıdaki kod, R’de numaranın ve benzersiz numaranın gruba göre nasıl bulunacağını gösterir:

 #find row count and unique row count by cylinder
mtcars %>%
group_by (cyl) %>%
summarize (count_mpg = n(),
            u_count_mpg = n_distinct(mpg))

# A tibble: 3 x 3
    cyl count_mpg u_count_mpg
              
1 4 11 9
2 6 7 6
3 8 14 12

Örnek 4: Gruba göre yüzdelik dilimin bulunması

Aşağıdaki kod, silindir grubuna göre mpg değerlerinin 90. yüzdelik diliminin nasıl bulunacağını gösterir:

 #find 90th percentile of mpg for each cylinder group
mtcars %>%
group_by (cyl) %>%
summarize (quant90 = quantile(mpg, probs = .9))

# A tibble: 3 x 2
    cyl quant90
     
1 4 32.4
2 6 21.2
3 8 18.3

Ek kaynaklar

Tam dplyr paketi belgelerinin yanı sıra faydalı görselleştirme hile sayfalarını da burada bulabilirsiniz.

group_by() ve Summary() ile kullanabileceğiniz diğer yararlı işlevler arasında, veri çerçevesinin satırlarını filtrelemek ve bunları belirli sıralara göre düzenlemek için kullanılan işlevler bulunur.

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir