Як побудувати категоріальні дані в r (з прикладами)
У статистиці категоричні дані представляють дані, які можуть приймати імена або мітки.
Приклади:
- Статус куріння («курить», «не курить»)
- Колір очей («блакитний», «зелений», «горіховий»)
- Рівень освіти (наприклад, «середня школа», «ступінь бакалавра», «ступінь магістра»)
Три діаграми, які зазвичай використовуються для візуалізації цього типу даних, включають:
- Гістограма
- Мозаїчні сюжети
- Коробкові ділянки по групах
У наступних прикладах показано, як створити кожен із цих графіків у R.
Приклад 1: Стовпчасті діаграми
Наступний код показує, як створити гістограму для візуалізації частоти зсувів у певному кадрі даних:
library (ggplot2) #create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create bar chart of teams ggplot(df, aes (x=team)) + geom_bar()
На осі абсцис відображаються назви кожної команди, а на осі у – частота кожної команди у кадрі даних.
Ми також можемо використати такий код, щоб упорядкувати стовпчики на діаграмі від найбільшого до найменшого:
#create bar chart of teams, ordered from large to small ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) + geom_bar(fill=' steelblue ') + labs(x=' Team ')
Приклад 2: Коробкові діаграми за групами
Кластерні коробкові діаграми є корисним способом візуалізації числової змінної, згрупованої за категоріальною змінною.
Наприклад, наведений нижче код показує, як створити коробкові діаграми, які показують розподіл набраних очок, згрупованих за командами:
library (ggplot2) #create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create boxplots of points, grouped by team ggplot(df, aes (x=team, y=points)) + geom_boxplot(fill=' steelblue ')
На осі абсцис відображаються команди, а на осі у – розподіл очок, набраних кожною командою.
Приклад 3: мозаїчний сюжет
Мозаїчний графік — це тип графіка, який відображає частоти двох різних категоріальних змінних на одному графіку.
Наприклад, наведений нижче код показує, як створити мозаїчну діаграму, яка показує частоту категоріальних змінних “результат” і “команда” в одній діаграмі:
#create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create table of counts counts <- table(df$result, df$team) #create mosaic plot mosaicplot(counts, xlab=' Game Result ', ylab=' Team ', main=' Wins by Team ', col=' steelblue ')
На осі абсцис відображаються результати гри, а на осі у – чотири різні команди.
Додаткові ресурси
У наступних посібниках пояснюється, як створити інші типові діаграми в R:
Як створити бардіаграму з накопиченням у R
Як створити кластерну бардіаграму в R
Як створити точкову діаграму з накопиченням у R