Panduan lengkap untuk kumpulan data berlian di r


Himpunan data berlian adalah himpunan data yang dibangun ke dalam paket ggplot2 di R.

Ini berisi pengukuran pada 10 variabel berbeda (seperti harga, warna, kejernihan, dll.) untuk 53.940 berlian berbeda.

Tutorial ini menjelaskan cara menjelajahi, meringkas, dan memvisualisasikan dataset berlian di R.

Muat kumpulan data berlian

Karena kumpulan data diamond adalah kumpulan data bawaan di ggplot2, pertama-tama kita perlu memasang (jika belum) dan memuat paket ggplot2:

 #install ggplot2 if not already installed
install. packages (' ggplot2 ')

#load ggplot2
library (ggplot2)

Setelah kita memuat ggplot2, kita dapat menggunakan fungsi data() untuk memuat kumpulan data berlian :

 data(diamonds)

Kita dapat melihat enam baris pertama dari dataset menggunakan fungsi head() :

 #view first six rows of diamonds dataset
head(diamonds)

  carat cut color clarity depth table price xyz
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
4 0.290 Premium I VS2 62.4 58 334 4.2 4.23 2.63
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48

Ringkas kumpulan data berlian

Kita dapat menggunakan fungsi ringkasan() untuk meringkas setiap variabel dalam kumpulan data dengan cepat:

 #summarize diamonds dataset
summary(diamonds)

     carat cut color clarity depth      
 Min. :0.2000 Fair: 1610 D: 6775 SI1:13065 Min. :43.00  
 1st Qu.:0.4000 Good: 4906 E: 9797 VS2:12258 1st Qu.:61.00  
 Median: 0.7000 Very Good: 12082 F: 9542 SI2: 9194 Median: 61.80  
 Mean: 0.7979 Premium: 13791 G: 11292 VS1: 8171 Mean: 61.75  
 3rd Qu.:1.0400 Ideal:21551 H:8304 VVS2:5066 3rd Qu.:62.50  
 Max. :5.0100 I: 5422 VVS1: 3655 Max. :79.00  
                                    D: 2808 (Other): 2531                  
     table price xyz Min. :43.00 Min. : 326 Min. : 0.000 Min. : 0.000 Min. : 0.000  
 1st Qu.: 56.00 1st Qu.: 950 1st Qu.: 4.710 1st Qu.: 4.720 1st Qu.: 2.910  
 Median: 57.00 Median: 2401 Median: 5.700 Median: 5.710 Median: 3.530  
 Mean: 57.46 Mean: 3933 Mean: 5.731 Mean: 5.735 Mean: 3.539  
 3rd Qu.: 59.00 3rd Qu.: 5324 3rd Qu.: 6.540 3rd Qu.: 6.540 3rd Qu.: 4.040  
 Max. :95.00 Max. :18823 Max. :10,740 Max. :58,900 Max. :31,800

Untuk masing-masing variabel numerik kita dapat melihat informasi berikut:

  • Min : Nilai minimum.
  • Qu ke-1 : Nilai kuartil pertama (persentil ke-25).
  • Median : Nilai median.
  • Rata-rata : Nilai rata-rata.
  • Qu ke-3 : Nilai kuartil ketiga (persentil ke-75).
  • Maks : Nilai maksimum.

Untuk variabel kategori dalam kumpulan data (potongan, warna, dan kejelasan), kami melihat penghitungan frekuensi setiap nilai.

Misalnya, untuk variabel cut :

  • Wajar : Nilai ini muncul 1.610 kali.
  • Baik : Nilai ini muncul 4,906 kali.
  • Sangat bagus : nilai ini muncul 12.082 kali.
  • Premium : Nilai ini muncul 13.791 kali.
  • Ideal : Nilai ini muncul 21.551 kali.

Kita dapat menggunakan fungsi dim() untuk mendapatkan dimensi kumpulan data dalam hal jumlah baris dan kolom:

 #display rows and columns
dim(diamonds)

[1] 53940 10

Kita dapat melihat bahwa dataset tersebut memiliki 53.940 baris dan 10 kolom.

Kita juga bisa menggunakan fungsi nama() untuk menampilkan nama kolom dari bingkai data:

 #display column names
names(diamonds)

[1] "carat" "cut" "color" "clarity" "depth" "table" "price" "x"      
[9] “y” “z”     

Visualisasikan Kumpulan Data Berlian

Kita juga dapat membuat plot untuk memvisualisasikan nilai dari dataset.

Misalnya, kita dapat menggunakan fungsi geom_histogram() untuk membuat histogram nilai variabel tertentu:

 #create histogram of values for price
ggplot(data=diamonds, aes (x=price)) +
  geom_histogram(fill=" steelblue ", color=" black ") +
  ggtitle(" Histogram of Price Values ")

Kita juga dapat menggunakan fungsi geom_point() untuk membuat titik cloud dari kombinasi variabel apa pun yang berpasangan:

 #create scatterplot of carat vs. price, using cut as color variable
ggplot(data=diamonds, aes (x=carat, y=price, color=cut)) + 
  geom_point()

Kita juga dapat menggunakan fungsi geom_boxplot() untuk membuat plot kotak suatu variabel yang dikelompokkan berdasarkan variabel lain:

 #create scatterplot of price, grouped by cut
ggplot(data=diamonds, aes (x=cut, y=price)) + 
  geom_boxplot(fill=" steelblue ")

Dengan menggunakan fungsi ggplot2 ini, kita dapat mempelajari banyak tentang variabel dalam dataset diamond .

Sumber daya tambahan

Tutorial berikut menjelaskan cara menjelajahi kumpulan data lain di R:

Panduan Lengkap untuk Dataset Iris di R
Panduan lengkap untuk dataset mtcars di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *