Cara merencanakan data kategorikal di r (dengan contoh)


Dalam statistik, data kategorikal mewakili data yang dapat diberi nama atau label.

Contohnya meliputi:

  • Status merokok (“perokok”, “bukan perokok”)
  • Warna mata (“biru”, “hijau”, “cokelat”)
  • Tingkat pendidikan (misalnya “sekolah menengah atas”, “gelar sarjana”, “gelar master”)

Tiga bagan yang umum digunakan untuk memvisualisasikan jenis data ini meliputi:

  • Grafik batang
  • Plot mosaik
  • Plot kotak berdasarkan kelompok

Contoh berikut menunjukkan cara membuat masing-masing plot di R.

Contoh 1: Diagram Batang

Kode berikut menunjukkan cara membuat diagram batang untuk memvisualisasikan frekuensi pergeseran dalam bingkai data tertentu:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create bar chart of teams
ggplot(df, aes (x=team)) +
  geom_bar()

Sumbu x menunjukkan nama masing-masing tim dan sumbu y menunjukkan frekuensi setiap tim dalam bingkai data.

Kita juga dapat menggunakan kode berikut untuk mengurutkan batang pada grafik dari yang terbesar ke yang terkecil:

 #create bar chart of teams, ordered from large to small
ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) +
  geom_bar(fill=' steelblue ') +
  labs(x=' Team ') 

Contoh 2: Plot kotak berdasarkan kelompok

Plot kotak terkluster adalah cara yang berguna untuk memvisualisasikan variabel numerik, yang dikelompokkan berdasarkan variabel kategori.

Misalnya, kode berikut menunjukkan cara membuat plot kotak yang memperlihatkan distribusi poin yang dicetak, dikelompokkan berdasarkan tim:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create boxplots of points, grouped by team
ggplot(df, aes (x=team, y=points)) +
  geom_boxplot(fill=' steelblue ')

Sumbu x menampilkan tim dan sumbu y menampilkan distribusi poin yang dicetak oleh masing-masing tim.

Contoh 3: plot mosaik

Plot bersusun adalah jenis plot yang menampilkan frekuensi dua variabel kategori berbeda dalam satu plot.

Misalnya, kode berikut menunjukkan cara membuat plot mosaik yang menunjukkan frekuensi variabel kategori “hasil” dan “tim” dalam satu plot:

 #create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create table of counts
counts <- table(df$result, df$team)

#create mosaic plot
mosaicplot(counts, xlab=' Game Result ', ylab=' Team ',
           main=' Wins by Team ', col=' steelblue ') 

Medan mosaik di R

Sumbu x menampilkan hasil permainan dan sumbu y menampilkan empat tim berbeda.

Sumber daya tambahan

Tutorial berikut menjelaskan cara membuat plot umum lainnya di R:

Cara membuat barplot bertumpuk di R
Cara membuat barplot berkerumun di R
Cara Membuat Plot Titik Bertumpuk di R

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *