Como plotar dados categóricos em r (com exemplos)
Nas estatísticas, os dados categóricos representam dados que podem receber nomes ou rótulos.
Exemplos incluem:
- Status de tabagismo (“fumante”, “não fumante”)
- Cor dos olhos (“azul”, “verde”, “avelã”)
- Nível de escolaridade (por exemplo, “ensino médio”, “bacharelado”, “mestrado”)
Três gráficos comumente usados para visualizar esse tipo de dados incluem:
- Gráfico de barras
- Parcelas de mosaico
- Gráficos de caixa por grupo
Os exemplos a seguir mostram como criar cada um desses gráficos em R.
Exemplo 1: gráficos de barras
O código a seguir mostra como criar um gráfico de barras para visualizar a frequência das mudanças em um determinado quadro de dados:
library (ggplot2) #create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create bar chart of teams ggplot(df, aes (x=team)) + geom_bar()
O eixo x mostra o nome de cada equipe e o eixo y mostra a frequência de cada equipe no quadro de dados.
Também podemos usar o seguinte código para ordenar as barras do gráfico da maior para a menor:
#create bar chart of teams, ordered from large to small ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) + geom_bar(fill=' steelblue ') + labs(x=' Team ')
Exemplo 2: Boxplots por grupo
Boxplots agrupados são uma forma útil de visualizar uma variável numérica, agrupada por uma variável categórica.
Por exemplo, o código a seguir mostra como criar boxplots que mostram a distribuição dos pontos marcados, agrupados por equipe:
library (ggplot2) #create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create boxplots of points, grouped by team ggplot(df, aes (x=team, y=points)) + geom_boxplot(fill=' steelblue ')
O eixo x exibe as equipes e o eixo y exibe a distribuição dos pontos marcados por cada equipe.
Exemplo 3: gráfico em mosaico
Um gráfico lado a lado é um tipo de gráfico que exibe as frequências de duas variáveis categóricas diferentes em um único gráfico.
Por exemplo, o código a seguir mostra como criar um gráfico em mosaico que mostra a frequência das variáveis categóricas “resultado” e “equipe” em um único gráfico:
#create data frame df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'), team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'), points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19), rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8)) #create table of counts counts <- table(df$result, df$team) #create mosaic plot mosaicplot(counts, xlab=' Game Result ', ylab=' Team ', main=' Wins by Team ', col=' steelblue ')
O eixo x exibe o resultado do jogo e o eixo y exibe as quatro equipes diferentes.
Recursos adicionais
Os tutoriais a seguir explicam como criar outros gráficos comuns em R:
Como criar um gráfico de barras empilhado em R
Como criar um gráfico de barras agrupado em R
Como criar um gráfico de pontos empilhados em R