Cara merencanakan data kategorikal di r (dengan contoh)
Dalam statistik, data kategorikal mewakili data yang dapat diberi nama atau label.
Contohnya meliputi:
- Status merokok (“perokok”, “bukan perokok”)
- Warna mata (“biru”, “hijau”, “cokelat”)
- Tingkat pendidikan (misalnya “sekolah menengah atas”, “gelar sarjana”, “gelar master”)
Tiga bagan yang umum digunakan untuk memvisualisasikan jenis data ini meliputi:
- Grafik batang
- Plot mosaik
- Plot kotak berdasarkan kelompok
Contoh berikut menunjukkan cara membuat masing-masing plot di R.
Contoh 1: Diagram Batang
Kode berikut menunjukkan cara membuat diagram batang untuk memvisualisasikan frekuensi pergeseran dalam bingkai data tertentu:
library (ggplot2) #create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create bar chart of teams ggplot(df, aes (x=team)) + geom_bar()
Sumbu x menunjukkan nama masing-masing tim dan sumbu y menunjukkan frekuensi setiap tim dalam bingkai data.
Kita juga dapat menggunakan kode berikut untuk mengurutkan batang pada grafik dari yang terbesar ke yang terkecil:
#create bar chart of teams, ordered from large to small ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) + geom_bar(fill=' steelblue ') + labs(x=' Team ')
Contoh 2: Plot kotak berdasarkan kelompok
Plot kotak terkluster adalah cara yang berguna untuk memvisualisasikan variabel numerik, yang dikelompokkan berdasarkan variabel kategori.
Misalnya, kode berikut menunjukkan cara membuat plot kotak yang memperlihatkan distribusi poin yang dicetak, dikelompokkan berdasarkan tim:
library (ggplot2) #create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create boxplots of points, grouped by team ggplot(df, aes (x=team, y=points)) + geom_boxplot(fill=' steelblue ')
Sumbu x menampilkan tim dan sumbu y menampilkan distribusi poin yang dicetak oleh masing-masing tim.
Contoh 3: plot mosaik
Plot bersusun adalah jenis plot yang menampilkan frekuensi dua variabel kategori berbeda dalam satu plot.
Misalnya, kode berikut menunjukkan cara membuat plot mosaik yang menunjukkan frekuensi variabel kategori “hasil” dan “tim” dalam satu plot:
#create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create table of counts counts <- table(df$result, df$team) #create mosaic plot mosaicplot(counts, xlab=' Game Result ', ylab=' Team ', main=' Wins by Team ', col=' steelblue ')
Sumbu x menampilkan hasil permainan dan sumbu y menampilkan empat tim berbeda.
Sumber daya tambahan
Tutorial berikut menjelaskan cara membuat plot umum lainnya di R:
Cara membuat barplot bertumpuk di R
Cara membuat barplot berkerumun di R
Cara Membuat Plot Titik Bertumpuk di R