R'de beş sayının özeti nasıl hesaplanır (örneklerle)


Beş basamaklı özet, aşağıdaki beş değeri kullanarak bir veri kümesini özetlemenin bir yoludur:

  • Asgari
  • İlk çeyrek
  • medyan
  • Üçüncü çeyrek
  • Maksimum

Beş rakamlı özet, aşağıdaki gibi veri dağılımının kısa bir özetini sağladığı için faydalıdır:

  • Medyanı kullanarak bize medyan değerinin nerede olduğunu söyler.
  • Birinci ve üçüncü çeyrekleri kullanarak bize verilerin dağılımını söyler.
  • Minimum ve maksimum değerleri kullanarak bize veri aralığını söyler.

R’deki bir veri kümesinin beş rakamlı özetini hesaplamanın en basit yolu, R tabanındaki fivenum() fonksiyonunu kullanmaktır:

 fivenum(data)

Aşağıdaki örnek, bu sözdiziminin pratikte nasıl kullanılacağını gösterir.

Örnek 1: Bir vektörün beş sayılı özeti

Aşağıdaki kod, R’deki sayısal bir vektörün beş sayılı özetinin nasıl hesaplanacağını gösterir:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

Sonuçtan şunları görebiliriz:

  • Asgari: 4
  • İlk çeyrek: 7
  • Medyan: 12
  • Üçüncü çeyrek: 15
  • Maksimum: 22

Bir kutu grafiği oluşturarak beş basamaklı özeti hızlı bir şekilde görselleştirebiliriz:

 boxplot(data)

[1] 4 7 12 15 22 

Kutu grafiğini nasıl yorumlayacağınız aşağıda açıklanmıştır:

  • Grafiğin altındaki çizgi minimum değeri ( 4 ) temsil eder.
  • Kutunun altındaki çizgi ilk çeyreği ( 7 ) temsil eder.
  • Kutunun ortasındaki çizgi medyanı ( 12 ) temsil eder.
  • Kutunun üstündeki çizgi üçüncü çeyreği ( 15 ) temsil eder.
  • Grafiğin üst kısmındaki çizgi maksimum değeri ( 22 ) temsil eder.

Örnek 2: Veri çerçevesindeki bir sütunun beş basamaklı özeti

Aşağıdaki kod, bir veri çerçevesindeki belirli bir sütunun beş basamaklı özetinin nasıl hesaplanacağını gösterir:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Örnek 3: Birden çok sütunun beş basamaklı özeti

Aşağıdaki kod, bir veri çerçevesindeki birden çok sütunun beş basamaklı özetini aynı anda hesaplamak için sapply() işlevinin nasıl kullanılacağını gösterir:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

İlgili: R’de application(), lapply(), sapply() ve tapply() için bir kılavuz

Ek kaynaklar

R’de özet tablolar nasıl oluşturulur
R’de aralık nasıl bulunur?
R’de aykırı değerler nasıl kaldırılır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir