R'de özet tablolar oluşturmanın en kolay yolu
R’de özet tabloları oluşturmanın en kolay yolu, psych kütüphanesindeki tarif() ve tarifBy() işlevlerini kullanmaktır.
library (psych) #create summary table describe(df) #create summary table, grouped by a specific variable describeBy(df, group=df$var_name)
Aşağıdaki örnekler bu fonksiyonların pratikte nasıl kullanılacağını göstermektedir.
Örnek 1: Temel bir özet tablosu oluşturun
R’de aşağıdaki veri çerçevesine sahip olduğumuzu varsayalım:
#create data frame df <- data. frame (team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'), points=c(15, 22, 29, 41, 30, 11, 19), rebounds=c(7, 8, 6, 6, 7, 9, 13), steals=c(1, 1, 2, 3, 5, 7, 5)) #view data frame df team points rebounds steals 1 to 15 7 1 2 A 22 8 1 3 B 29 6 2 4 B 41 6 3 5 C 30 7 5 6 C 11 9 7 7 C 19 13 5
Veri çerçevesindeki her değişken için bir özet tablo oluşturmak amacıyla define() işlevini kullanabiliriz:
library (psych) #create summary table describe(df) vars n mean sd median trimmed mad min max range skew kurtosis team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90 points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41 rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38 steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73 se team* 0.34 points 3.87 rebounds 0.93 steals 0.87
Sonuçtaki her bir değerin nasıl yorumlanacağı aşağıda açıklanmıştır:
- değişkenler : sütun numarası
- n : Geçerli vaka sayısı
- ortalama : Ortalama değer
- medyan : Medyan değer
- kırpılmış : Kırpılmış ortalama (varsayılan olarak her uçta gözlemlerin %10’u kaldırılır)
- mad : Mutlak medyan sapma (medyandan)
- min : Minimum değer
- max : Maksimum değer
- range : Değer aralığı (max – min)
- çarpıklık : asimetri
- Basıklık : Düzleşme
- se : Standart hata
Yıldız işareti (*) bulunan herhangi bir değişkenin, değerlerin sayısal sırasını temsil eden değerlere sahip sayısal bir değişkene dönüştürülmüş kategorik veya mantıksal bir değişken olduğunu unutmamak önemlidir.
Örneğimizde “takım” değişkeni sayısal bir değişkene dönüştürülmüştür, dolayısıyla ilgili özet istatistikleri tam anlamıyla yorumlamamalıyız.
Ayrıca fast=TRUE bağımsız değişkenini yalnızca en yaygın özet istatistikleri hesaplamak için kullanabileceğinizi unutmayın:
#create smaller summary table describe(df, fast= TRUE ) vars n mean sd min max range se team 1 7 NaN NA Inf -Inf -Inf NA points 2 7 23.86 10.24 11 41 30 3.87 rebounds 3 7 8.00 2.45 6 13 7 0.93 steals 4 7 3.43 2.30 1 7 6 0.87
Ayrıca veri çerçevesindeki belirli değişkenler için yalnızca özet istatistikleri hesaplamayı da seçebiliriz:
#create summary table for just 'points' and 'rebounds' columns describe(df[, c(' points ', ' rebounds ')], fast= TRUE ) vars n mean sd min max range se points 1 7 23.86 10.24 11 41 30 3.87 rebounds 2 7 8.00 2.45 6 13 7 0.93
Örnek 2: belirli değişkene göre gruplandırılmış bir özet tablosu oluşturun
Aşağıdaki kod, veri çerçevesi için “ekip” değişkenine göre gruplandırılmış bir özet tablosu oluşturmak amacıyla defineBy() işlevinin nasıl kullanılacağını gösterir:
#create summary table, grouped by 'team' variable describeBy(df, group=df$team, fast= TRUE ) Descriptive statistics by group group: A vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 18.5 4.95 15 22 7 3.5 rebounds 3 2 7.5 0.71 7 8 1 0.5 steals 4 2 1.0 0.00 1 1 0 0.0 -------------------------------------------------- ---------- group: B vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 35.0 8.49 29 41 12 6.0 rebounds 3 2 6.0 0.00 6 6 0 0.0 steals 4 2 2.5 0.71 2 3 1 0.5 -------------------------------------------------- ---------- group: C vars n mean sd min max range se team 1 3 NaN NA Inf -Inf -Inf NA points 2 3 20.00 9.54 11 30 19 5.51 rebounds 3 3 9.67 3.06 7 13 6 1.76 steals 4 3 5.67 1.15 5 7 2 0.67
Çıktı, veri çerçevesindeki üç takımın her biri için özet istatistikleri görüntüler.
Ek kaynaklar
R’deki beş sayının özeti nasıl hesaplanır
R’de grup başına ortalama nasıl hesaplanır
R’de gruba göre toplam nasıl hesaplanır
R’deki varyans nasıl hesaplanır
R’de kovaryans matrisi nasıl oluşturulur