R'de dplyr kullanılarak özet istatistikler nasıl hesaplanır
dplyr paketindeki işlevleri kullanarak R’deki bir veri çerçevesindeki tüm sayısal değişkenlerin özet istatistiklerini hesaplamak için aşağıdaki sözdizimini kullanabilirsiniz:
library (dplyr) library (tidyr) df %>% summarise(across(where(is. numeric ), .fns = list(min = min, median = median, mean = mean, stdev = sd, q25 = ~quantile(., 0.25 ), q75 = ~quantile(., 0.75 ), max = max))) %>% pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value '))
summarise() işlevi dplyr paketinden gelir ve değişkenler için özet istatistikleri hesaplamak için kullanılır.
pivot_longer() işlevi Tidyr paketinden gelir ve okumayı kolaylaştırmak amacıyla çıktıyı biçimlendirmek için kullanılır.
Bu özel sözdizimi, bir veri çerçevesindeki her sayısal değişken için aşağıdaki özet istatistiklerini hesaplar:
- En az değer
- Medyan değer
- Ortalama değer
- Standart sapma
- 25. yüzdelik dilim
- 75. yüzdelik dilim
- Maksimum değer
Aşağıdaki örnekte bu fonksiyonun pratikte nasıl kullanılacağı gösterilmektedir.
Örnek: R’de dplyr kullanarak özet istatistikleri hesaplama
R’de çeşitli basketbol oyuncuları hakkında bilgi içeren aşağıdaki veri çerçevesine sahip olduğumuzu varsayalım:
#create data frame df <- data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'), points=c(12, 15, 19, 14, 24, 25, 39, 34), assists=c(6, 8, 8, 9, 12, 6, 8, 10), rebounds=c(9, 9, 8, 10, 8, 4, 3, 3)) #view data frame df team points assists rebounds 1 to 12 6 9 2 A 15 8 9 3 A 19 8 8 4 A 14 9 10 5 B 24 12 8 6 B 25 6 4 7 B 39 8 3 8 B 34 10 3
Veri çerçevesindeki her sayısal değişkene ilişkin özet istatistikleri hesaplamak için aşağıdaki sözdizimini kullanabiliriz:
library (dplyr) library (tidyr) #calculate summary statistics for each numeric variable in data frame df %>% summarise(across(where(is. numeric ), .fns = list(min = min, median = median, mean = mean, stdev = sd, q25 = ~quantile(., 0.25 ), q75 = ~quantile(., 0.75 ), max = max))) %>% pivot_longer(everything(), names_sep=' _ ', names_to=c(' variable ', ' .value ')) # A tibble: 3 x 8 variable min median mean stdev q25 q75 max 1 points 12 21.5 22.8 9.74 14.8 27.2 39 2 assists 6 8 8.38 2.00 7.5 9.25 12 3 rebounds 3 8 6.75 2.92 3.75 9 10
Sonuçtan şunları görebiliriz:
- Puan sütunundaki minimum değer 12’dir .
- Puan sütunundaki medyan değer 21,5’tir .
- Puan sütunundaki ortalama değer 22,8’dir .
Ve benzeri.
Not : Bu örnekte dplyr cross() fonksiyonunu kullandık. Bu işleve ilişkin tüm belgeleri burada bulabilirsiniz.
Ek kaynaklar
Aşağıdaki eğitimlerde dplyr kullanılarak diğer yaygın işlevlerin nasıl gerçekleştirileceği açıklanmaktadır:
Verileri özetleme ancak tüm sütunları dplyr kullanarak tutma
Dplyr kullanarak birden çok sütun nasıl özetlenir
Dplyr kullanılarak standart sapma nasıl hesaplanır?