R'deki elmas veri kümesi i̇çin tam bir kılavuz
Elmas veri kümesi, R’deki ggplot2 paketine yerleşik bir veri kümesidir.
53.940 farklı pırlanta için 10 farklı değişkene (fiyat, renk, berraklık vb.) ilişkin ölçümler içerir.
Bu eğitimde, R’deki elmas veri kümesinin nasıl keşfedileceği, özetleneceği ve görselleştirileceği açıklanmaktadır.
Elmas veri kümesini yükle
Elmas veri kümesi ggplot2’de yerleşik bir veri kümesi olduğundan, önce (henüz değilse) ggplot2 paketini kurmamız ve yüklememiz gerekir:
#install ggplot2 if not already installed
install. packages (' ggplot2 ')
#load ggplot2
library (ggplot2)
Ggplot2’yi yükledikten sonra elmas veri kümesini yüklemek için data() fonksiyonunu kullanabiliriz:
data(diamonds)
Head() fonksiyonunu kullanarak veri setinin ilk altı satırına göz atabiliriz:
#view first six rows of diamonds dataset
head(diamonds)
carat cut color clarity depth table price xyz
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
Elmas veri kümesini özetleme
Veri kümesindeki her değişkeni hızlı bir şekilde özetlemek için Summary() işlevini kullanabiliriz:
#summarize diamonds dataset
summary(diamonds)
carat cut color clarity depth
Min. :0.2000 Fair: 1610 D: 6775 SI1:13065 Min. :43.00
1st Qu.:0.4000 Good: 4906 E: 9797 VS2:12258 1st Qu.:61.00
Median: 0.7000 Very Good: 12082 F: 9542 SI2: 9194 Median: 61.80
Mean: 0.7979 Premium: 13791 G: 11292 VS1: 8171 Mean: 61.75
3rd Qu.:1.0400 Ideal:21551 H:8304 VVS2:5066 3rd Qu.:62.50
Max. :5.0100 I: 5422 VVS1: 3655 Max. :79.00
D: 2808 (Other): 2531
table price xyz Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000
1st Qu.: 56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910
Median: 57.00 Median: 2401 Median: 5.700 Median: 5.710 Median: 3.530
Mean: 57.46 Mean: 3933 Mean: 5.731 Mean: 5.735 Mean: 3.539
3rd Qu.: 59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040
Max. :95.00 Max. :18823 Max. :10,740 Max. :58,900 Max. :31,800
Sayısal değişkenlerin her biri için aşağıdaki bilgileri görebiliriz:
- Min : Minimum değer.
- 1st Qu : İlk çeyreğin değeri (25. yüzdelik dilim).
- Medyan : Medyan değeri.
- Ortalama : Ortalama değer.
- 3rd Qu : Üçüncü çeyreğin değeri (75. yüzdelik).
- Maks : Maksimum değer.
Veri kümesindeki kategorik değişkenler (kesim, renk ve netlik) için her değerin frekans sayısını görüyoruz.
Örneğin kesme değişkeni için:
- Orta : Bu değer 1.610 kez görünür.
- İyi : Bu değer 4.906 kez görünmektedir.
- Çok iyi : Bu değer 12.082 kez görünüyor.
- Premium : Bu değer 13.791 defa karşımıza çıkmaktadır.
- İdeal : Bu değer 21.551 defa görünmektedir.
Veri kümesinin boyutlarını satır ve sütun sayısına göre elde etmek için dim() işlevini kullanabiliriz:
#display rows and columns
dim(diamonds)
[1] 53940 10
Veri setinin 53.940 satır ve 10 sütundan oluştuğunu görüyoruz.
Veri çerçevesinin sütun adlarını görüntülemek için labels() işlevini de kullanabiliriz:
#display column names
names(diamonds)
[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x"
[9] “y” “z”
Elmas Veri Kümesini Görselleştirin
Veri kümesinin değerlerini görselleştirmek için grafikler de oluşturabiliriz.
Örneğin, belirli bir değişkenin değerlerinin histogramını oluşturmak için geom_histogram() işlevini kullanabiliriz:
#create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
geom_histogram(fill=" steelblue ", color=" black ") +
ggtitle(" Histogram of Price Values ")
Değişkenlerin ikili birleşiminden oluşan bir nokta bulutu oluşturmak için geom_point() işlevini de kullanabiliriz:
#create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) +
geom_point()
Başka bir değişkene göre gruplandırılmış bir değişkenin kutu grafiğini oluşturmak için geom_boxplot() işlevini de kullanabiliriz:
#create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) +
geom_boxplot(fill=" steelblue ")
Bu ggplot2 fonksiyonlarını kullanarak elmas veri setindeki değişkenler hakkında çok şey öğrenebiliriz.
Ek kaynaklar
Aşağıdaki eğitimlerde R’deki diğer veri kümelerinin nasıl keşfedileceği açıklanmaktadır:
R’deki İris Veri Kümesi İçin Tam Bir Kılavuz
R’deki mtcars veri kümesine yönelik eksiksiz bir kılavuz