Panduan lengkap untuk dataset iris di r


Dataset iris merupakan dataset terintegrasi dalam R yang berisi pengukuran pada 4 atribut berbeda (dalam sentimeter) untuk 50 bunga dari 3 spesies berbeda.

Tutorial ini menjelaskan cara menjelajahi dan meringkas kumpulan data di R, menggunakan kumpulan data iris sebagai contoh.

Terkait: Panduan Lengkap untuk Kumpulan Data mtcars di R

Muat kumpulan data Iris

Karena kumpulan data iris adalah kumpulan data bawaan di R, kita dapat memuatnya menggunakan perintah berikut:

 data(iris)

Kita dapat melihat enam baris pertama dari dataset menggunakan fungsi head() :

 #view first six rows of iris dataset
head(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

Ringkas kumpulan data Iris

Kita dapat menggunakan fungsi ringkasan() untuk meringkas setiap variabel dalam kumpulan data dengan cepat:

 #summarize iris dataset
summary(iris)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   
 Min. :4,300 Min. :2,000 Min. :1,000 Min. :0.100  
 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300  
 Median: 5,800 Median: 3,000 Median: 4,350 Median: 1,300  
 Mean:5.843 Mean:3.057 Mean:3.758 Mean:1.199  
 3rd Qu.:6,400 3rd Qu.:3,300 3rd Qu.:5,100 3rd Qu.:1,800  
 Max. :7,900 Max. :4,400 Max. :6,900 Max. :2,500  
       Species  
 setosa:50  
 versicolor:50  
 virginica :50

Untuk masing-masing variabel numerik kita dapat melihat informasi berikut:

  • Min : Nilai minimum.
  • Qu ke-1 : Nilai kuartil pertama (persentil ke-25).
  • Median : Nilai median.
  • Rata-rata : Nilai rata-rata.
  • Qu ke-3 : Nilai kuartil ketiga (persentil ke-75).
  • Maks : Nilai maksimum.

Untuk satu-satunya variabel kategori dalam kumpulan data (Spesies), kita melihat jumlah frekuensi setiap nilai:

  • setosa : Spesies ini hadir 50 kali.
  • versicolor : Spesies ini muncul 50 kali.
  • virginica : Spesies ini hadir 50 kali.

Kita dapat menggunakan fungsi dim() untuk mendapatkan dimensi kumpulan data dalam hal jumlah baris dan kolom:

 #display rows and columns
dim(iris)

[1] 150 5

Kita dapat melihat bahwa dataset tersebut memiliki 150 baris dan 5 kolom.

Kita juga bisa menggunakan fungsi nama() untuk menampilkan nama kolom dari bingkai data:

 #display column names
names(iris)

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"     

Visualisasikan kumpulan data Iris

Kita juga dapat membuat plot untuk memvisualisasikan nilai dari dataset.

Misalnya, kita dapat menggunakan fungsi hist() untuk membuat histogram dari nilai variabel tertentu:

 #create histogram of values for sepal length
hist(iris$Sepal.Length,
     col=' steelblue ',
     main=' Histogram ',
     xlab=' Length ',
     ylab=' Frequency ')

Kita juga dapat menggunakan fungsi plot() untuk membuat plot sebar dari kombinasi variabel apa pun yang berpasangan:

 #create scatterplot of sepal width vs. sepal length
plot(iris$Sepal.Width, iris$Sepal.Length,
     col=' steelblue ',
     main=' Scatterplot ',
     xlab=' Sepal Width ',
     ylab=' Sepal Length ',
     pch= 19 ) 

Kita juga dapat menggunakan fungsi boxplot() untuk membuat plot kotak per grup:

 #create scatterplot of sepal width vs. sepal length
boxplot(Sepal.Length~Species,
        data=iris,
        main=' Sepal Length by Species ',
        xlab=' Species ',
        ylab=' Sepal Length ',
        col=' steelblue ',
        border=' black ') 

Sumbu x menampilkan ketiga spesies dan sumbu y menampilkan sebaran nilai panjang sepal tiap spesies.

Jenis plot ini memungkinkan kita melihat dengan cepat bahwa panjang sepal cenderung paling besar untuk spesies virginica dan paling kecil untuk spesies setosa.

Sumber daya tambahan

Tutorial berikut menjelaskan lebih detail cara meringkas dataset di R:

Cara termudah untuk membuat tabel ringkasan di R
Cara menghitung rangkuman lima angka di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *