Como plotar dados categóricos em r (com exemplos)


Nas estatísticas, os dados categóricos representam dados que podem receber nomes ou rótulos.

Exemplos incluem:

  • Status de tabagismo (“fumante”, “não fumante”)
  • Cor dos olhos (“azul”, “verde”, “avelã”)
  • Nível de escolaridade (por exemplo, “ensino médio”, “bacharelado”, “mestrado”)

Três gráficos comumente usados para visualizar esse tipo de dados incluem:

  • Gráfico de barras
  • Parcelas de mosaico
  • Gráficos de caixa por grupo

Os exemplos a seguir mostram como criar cada um desses gráficos em R.

Exemplo 1: gráficos de barras

O código a seguir mostra como criar um gráfico de barras para visualizar a frequência das mudanças em um determinado quadro de dados:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create bar chart of teams
ggplot(df, aes (x=team)) +
  geom_bar()

O eixo x mostra o nome de cada equipe e o eixo y mostra a frequência de cada equipe no quadro de dados.

Também podemos usar o seguinte código para ordenar as barras do gráfico da maior para a menor:

 #create bar chart of teams, ordered from large to small
ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) +
  geom_bar(fill=' steelblue ') +
  labs(x=' Team ') 

Exemplo 2: Boxplots por grupo

Boxplots agrupados são uma forma útil de visualizar uma variável numérica, agrupada por uma variável categórica.

Por exemplo, o código a seguir mostra como criar boxplots que mostram a distribuição dos pontos marcados, agrupados por equipe:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create boxplots of points, grouped by team
ggplot(df, aes (x=team, y=points)) +
  geom_boxplot(fill=' steelblue ')

O eixo x exibe as equipes e o eixo y exibe a distribuição dos pontos marcados por cada equipe.

Exemplo 3: gráfico em mosaico

Um gráfico lado a lado é um tipo de gráfico que exibe as frequências de duas variáveis categóricas diferentes em um único gráfico.

Por exemplo, o código a seguir mostra como criar um gráfico em mosaico que mostra a frequência das variáveis categóricas “resultado” e “equipe” em um único gráfico:

 #create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create table of counts
counts <- table(df$result, df$team)

#create mosaic plot
mosaicplot(counts, xlab=' Game Result ', ylab=' Team ',
           main=' Wins by Team ', col=' steelblue ') 

Terreno mosaico em R

O eixo x exibe o resultado do jogo e o eixo y exibe as quatro equipes diferentes.

Recursos adicionais

Os tutoriais a seguir explicam como criar outros gráficos comuns em R:

Como criar um gráfico de barras empilhado em R
Como criar um gráfico de barras agrupado em R
Como criar um gráfico de pontos empilhados em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *