Cara menggunakan fungsi cut() di r


Fungsi cut() di R dapat digunakan untuk memotong rentang nilai ke dalam bin dan menentukan label untuk setiap bin.

Fungsi ini menggunakan sintaks berikut:

potong(x, putus, label = NULL, …)

Emas:

  • x : Nama vektor
  • break : Jumlah break yang harus dilakukan atau vektor break point
  • labels : label untuk wadah yang dihasilkan

Contoh berikut menunjukkan cara menggunakan fungsi ini dalam skenario berbeda dengan bingkai data berikut di R:

 #create data frame
df <- data. frame (player=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I'),
                 points=c(4, 7, 8, 12, 14, 16, 20, 26, 36))

#view data frame
df

  player points
1 to 4
2 B 7
3 C 8
4 D 12
5 E 14
6 F 16
7 G 20
8:26 a.m.
9 I 36

Contoh 1: Potong vektor berdasarkan jumlah putusnya

Kode berikut menunjukkan cara menggunakan fungsi cut() untuk membuat kolom baru bernama kategori yang memotong kolom titik menjadi kelompok empat ukuran yang sama:

 #create new column that places each player into four categories based on points
df$category <- cut(df$points, breaks= 4 )

#view updated data frame
df

  player points category
1 to 4 (3.97.12]
2 B 7 (3.97.12]
3 C 8 (3.97.12]
4 D 12 (3.97.12]
5 E 14 (12.20]
6 F 16 (12.20]
7 G 20 (12.20]
8:26 a.m. (20.28]
9 I 36 (28.36]

Karena kita menentukan break=4 , fungsi cut() membagi nilai di kolom titik menjadi empat kelompok dengan ukuran yang sama.

Begini cara fungsi cut() melakukan ini:

  • Pertama, ia mencari selisih nilai terbesar dan terkecil pada kolom poin (36 – 4 = 32).
  • Lalu dia membagi selisihnya dengan 4 (32/4 = 8)
  • Hasilnya adalah empat nampan dengan lebar masing-masing 8 buah.

Catatan : Interval terendah adalah 3,97 bukannya 4 karena fungsi berikut dari dokumentasi cut() :

Jika jeda ditetapkan sebagai satu angka, rentang data dibagi menjadi potongan jeda dengan panjang yang sama, lalu batas terluarnya dipindahkan 0,1% dari rentang untuk memastikan bahwa outlier berada dalam kedua interval jeda tersebut.

Contoh 2: Memotong vektor berdasarkan breakpoint tertentu

Kode berikut menunjukkan cara menggunakan fungsi cut() untuk membuat kolom baru bernama kategori yang memotong kolom titik berdasarkan vektor titik henti sementara tertentu:

 #create new column based on specific break points
df$category <- cut(df$points, breaks=c(0, 10, 15, 20, 40))

#view updated data frame
df

  player points category
1 to 4 (0.10]
2 B 7 (0.10]
3 C 8 (0.10]
4 D 12 (10.15]
5 E 14 (10.15]
6 F 16 (15.20]
7 G 20 (15.20]
8:26 a.m. (20.40)
9 I 36 (20.40]

Fungsi cut() mengklasifikasikan setiap pemain ke dalam kategori berdasarkan vektor breakpoint tertentu yang kami sediakan.

Contoh 3: Memotong Vektor Menggunakan Breakpoint dan Label Tertentu

Kode berikut menunjukkan cara menggunakan fungsi cut() untuk membuat kolom baru bernama kategori yang memotong kolom titik berdasarkan vektor titik henti sementara tertentu dengan label khusus:

 #create new column based on values in points column
df$category <- cut(df$points,
                   breaks=c(0, 10, 15, 20, 40),
                   labels=c(' Bad ', ' OK ', ' Good ', ' Great '))

#view updated data frame
df

  player points category
1 A 4 Bad
2 B 7 Bad
3 C 8 Bad
4 D 12 OK
5 E 14 OK
6 F 16 Good
7 G 20 Good
8:26 A.M. Great
9 I 36 Great

Kolom kategori baru memberi peringkat setiap pemain sebagai Buruk, OK, Baik, atau Sangat Baik berdasarkan nilai yang sesuai di kolom poin .

Catatan : Jumlah label harus selalu kurang satu dari jumlah breakpoint untuk menghindari kesalahan berikut:

 Error in cut.default(df$points, breaks = c(0, 10, 15, 20, 40), labels = c("Bad",: 
  lengths of 'breaks' and 'labels' differ

Sumber daya tambahan

Tutorial berikut menjelaskan cara menggunakan fungsi umum lainnya di R:

Cara menggunakan fungsi tabulate() di R
Cara menggunakan fungsi split() di R
Cara menggunakan fungsi match() di R
Cara menggunakan fungsi replika() di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *