R'de dplyr kullanılarak özet istatistikler nasıl hesaplanır

İle Dr.benjamin anderson Temmuz 12, 2023 Rehber 0 Yorum

dplyr paketindeki işlevleri kullanarak R’deki bir veri çerçevesindeki tüm sayısal değişkenlerin özet istatistiklerini hesaplamak için aşağıdaki sözdizimini kullanabilirsiniz:

 library (dplyr)
library (tidyr)

df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

summarise() işlevi dplyr paketinden gelir ve değişkenler için özet istatistikleri hesaplamak için kullanılır.

pivot_longer() işlevi Tidyr paketinden gelir ve okumayı kolaylaştırmak amacıyla çıktıyı biçimlendirmek için kullanılır.

Bu özel sözdizimi, bir veri çerçevesindeki her sayısal değişken için aşağıdaki özet istatistiklerini hesaplar:

En az değer
Medyan değer
Ortalama değer
Standart sapma
25. yüzdelik dilim
75. yüzdelik dilim
Maksimum değer

Aşağıdaki örnekte bu fonksiyonun pratikte nasıl kullanılacağı gösterilmektedir.

Örnek: R’de dplyr kullanarak özet istatistikleri hesaplama

R’de çeşitli basketbol oyuncuları hakkında bilgi içeren aşağıdaki veri çerçevesine sahip olduğumuzu varsayalım:

 #create data frame
df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(12, 15, 19, 14, 24, 25, 39, 34),
                 assists=c(6, 8, 8, 9, 12, 6, 8, 10),
                 rebounds=c(9, 9, 8, 10, 8, 4, 3, 3))

#view data frame
df

  team points assists rebounds
1 to 12 6 9
2 A 15 8 9
3 A 19 8 8
4 A 14 9 10
5 B 24 12 8
6 B 25 6 4
7 B 39 8 3
8 B 34 10 3

Veri çerçevesindeki her sayısal değişkene ilişkin özet istatistikleri hesaplamak için aşağıdaki sözdizimini kullanabiliriz:

 library (dplyr)
library (tidyr)

#calculate summary statistics for each numeric variable in data frame
df %>% summarise(across(where(is. numeric ), .fns = 
                     list(min = min,
                          median = median,
                          mean = mean,
                          stdev = sd,
                          q25 = ~quantile(., 0.25 ),
                          q75 = ~quantile(., 0.75 ),
                          max = max))) %>%
  pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))

# A tibble: 3 x 8
  variable min median mean stdev q25 q75 max
             
1 points 12 21.5 22.8 9.74 14.8 27.2 39
2 assists 6 8 8.38 2.00 7.5 9.25 12
3 rebounds 3 8 6.75 2.92 3.75 9 10

Sonuçtan şunları görebiliriz:

Puan sütunundaki minimum değer 12’dir .
Puan sütunundaki medyan değer 21,5’tir .
Puan sütunundaki ortalama değer 22,8’dir .

Ve benzeri.

Not : Bu örnekte dplyr cross() fonksiyonunu kullandık. Bu işleve ilişkin tüm belgeleri burada bulabilirsiniz.

Ek kaynaklar

Aşağıdaki eğitimlerde dplyr kullanılarak diğer yaygın işlevlerin nasıl gerçekleştirileceği açıklanmaktadır:

Verileri özetleme ancak tüm sütunları dplyr kullanarak tutma
Dplyr kullanarak birden çok sütun nasıl özetlenir
Dplyr kullanılarak standart sapma nasıl hesaplanır?

yazar hakkında

Dr.benjamin anderson

Merhaba, ben Benjamin, emekli bir istatistik profesörü ve Statorials öğretmenine dönüştüm. İstatistik alanındaki kapsamlı deneyimim ve uzmanlığımla, öğrencilerimi Statorials aracılığıyla güçlendirmek için bilgilerimi paylaşmaya can atıyorum. Daha fazlasını bil

Örnek: R’de dplyr kullanarak özet istatistikleri hesaplama

Ek kaynaklar

yazar hakkında

Dr.benjamin anderson

Yorum ekle