R'deki i̇ris veri kümesi i̇çin tam bir kılavuz
İris veri seti, 3 farklı türden 50 çiçek için 4 farklı özelliğe (santimetre cinsinden) ilişkin ölçümleri içeren, R’de entegre bir veri setidir.
Bu eğitimde iris veri kümesini örnek olarak kullanarak R’de bir veri kümesinin nasıl keşfedileceği ve özetleneceği açıklanmaktadır.
İlgili: R’deki mtcars Veri Kümesi İçin Tam Bir Kılavuz
Iris veri kümesini yükle
İris veri kümesi R’de yerleşik bir veri kümesi olduğundan, aşağıdaki komutu kullanarak yükleyebiliriz:
data(iris)
Head() fonksiyonunu kullanarak veri setinin ilk altı satırına göz atabiliriz:
#view first six rows of iris dataset
head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
Iris veri kümesini özetleme
Veri kümesindeki her değişkeni hızlı bir şekilde özetlemek için Summary() işlevini kullanabiliriz:
#summarize iris dataset
summary(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300
Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199
3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800
Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500
Species
setosa:50
versicolor:50
virginica :50
Sayısal değişkenlerin her biri için aşağıdaki bilgileri görebiliriz:
- Min : Minimum değer.
- 1st Qu : İlk çeyreğin değeri (25. yüzdelik dilim).
- Medyan : Medyan değeri.
- Ortalama : Ortalama değer.
- 3rd Qu : Üçüncü çeyreğin değeri (75. yüzdelik).
- Maks : Maksimum değer.
Veri kümesindeki tek kategorik değişken (Türler) için her değerin frekans sayısını görüyoruz:
- setosa : Bu tür 50 defa bulunmaktadır.
- versicolor : Bu tür 50 kez görülür.
- virginica : Bu tür 50 defa bulunmaktadır.
Veri kümesinin boyutlarını satır ve sütun sayısına göre elde etmek için dim() işlevini kullanabiliriz:
#display rows and columns
dim(iris)
[1] 150 5
Veri setinin 150 satır ve 5 sütundan oluştuğunu görüyoruz.
Veri çerçevesinin sütun adlarını görüntülemek için labels() işlevini de kullanabiliriz:
#display column names
names(iris)
[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"
Iris veri kümesini görselleştirin
Veri kümesinin değerlerini görselleştirmek için grafikler de oluşturabiliriz.
Örneğin, belirli bir değişkenin değerlerinin histogramını oluşturmak için hist() fonksiyonunu kullanabiliriz:
#create histogram of values for sepal length
hist(iris$Sepal.Length,
col=' steelblue ',
main=' Histogram ',
xlab=' Length ',
ylab=' Frequency ')
Değişkenlerin herhangi bir ikili kombinasyonunun dağılım grafiğini oluşturmak için de arsa() fonksiyonunu kullanabiliriz:
#create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
col=' steelblue ',
main=' Scatterplot ',
xlab=' Sepal Width ',
ylab=' Sepal Length ',
pch= 19 )
Grup başına bir kutu grafiği oluşturmak için boxplot() işlevini de kullanabiliriz:
#create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
data=iris,
main=' Sepal Length by Species ',
xlab=' Species ',
ylab=' Sepal Length ',
col=' steelblue ',
border=' black ')
X ekseni üç türü, y ekseni ise her tür için sepal uzunluk değerlerinin dağılımını gösterir.
Bu tür bir grafik, çanak yaprakların uzunluğunun virginica türleri için en büyük ve setosa türleri için en küçük olma eğiliminde olduğunu hızlı bir şekilde görmemize olanak tanır.
Ek kaynaklar
Aşağıdaki eğitimlerde R’deki veri kümelerinin nasıl özetleneceği daha ayrıntılı olarak açıklanmaktadır:
R’de özet tablolar oluşturmanın en kolay yolu
R’deki beş sayının özeti nasıl hesaplanır