Як побудувати категоріальні дані в r (з прикладами)


У статистиці категоричні дані представляють дані, які можуть приймати імена або мітки.

Приклади:

  • Статус куріння («курить», «не курить»)
  • Колір очей («блакитний», «зелений», «горіховий»)
  • Рівень освіти (наприклад, «середня школа», «ступінь бакалавра», «ступінь магістра»)

Три діаграми, які зазвичай використовуються для візуалізації цього типу даних, включають:

  • Гістограма
  • Мозаїчні сюжети
  • Коробкові ділянки по групах

У наступних прикладах показано, як створити кожен із цих графіків у R.

Приклад 1: Стовпчасті діаграми

Наступний код показує, як створити гістограму для візуалізації частоти зсувів у певному кадрі даних:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create bar chart of teams
ggplot(df, aes (x=team)) +
  geom_bar()

На осі абсцис відображаються назви кожної команди, а на осі у – частота кожної команди у кадрі даних.

Ми також можемо використати такий код, щоб упорядкувати стовпчики на діаграмі від найбільшого до найменшого:

 #create bar chart of teams, ordered from large to small
ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) +
  geom_bar(fill=' steelblue ') +
  labs(x=' Team ') 

Приклад 2: Коробкові діаграми за групами

Кластерні коробкові діаграми є корисним способом візуалізації числової змінної, згрупованої за категоріальною змінною.

Наприклад, наведений нижче код показує, як створити коробкові діаграми, які показують розподіл набраних очок, згрупованих за командами:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create boxplots of points, grouped by team
ggplot(df, aes (x=team, y=points)) +
  geom_boxplot(fill=' steelblue ')

На осі абсцис відображаються команди, а на осі у – розподіл очок, набраних кожною командою.

Приклад 3: мозаїчний сюжет

Мозаїчний графік — це тип графіка, який відображає частоти двох різних категоріальних змінних на одному графіку.

Наприклад, наведений нижче код показує, як створити мозаїчну діаграму, яка показує частоту категоріальних змінних “результат” і “команда” в одній діаграмі:

 #create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create table of counts
counts <- table(df$result, df$team)

#create mosaic plot
mosaicplot(counts, xlab=' Game Result ', ylab=' Team ',
           main=' Wins by Team ', col=' steelblue ') 

Мозаїчний рельєф в Р

На осі абсцис відображаються результати гри, а на осі у – чотири різні команди.

Додаткові ресурси

У наступних посібниках пояснюється, як створити інші типові діаграми в R:

Як створити бардіаграму з накопиченням у R
Як створити кластерну бардіаграму в R
Як створити точкову діаграму з накопиченням у R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *