So zeichnen sie kategoriale daten in r auf (mit beispielen)


In der Statistik stellen kategoriale Daten Daten dar, die Namen oder Bezeichnungen annehmen können.

Beispiele beinhalten:

  • Raucherstatus („Raucher“, „Nichtraucher“)
  • Augenfarbe („blau“, „grün“, „hasel“)
  • Bildungsniveau (z. B. „Abitur“, „Bachelor“, „Master“)

Drei häufig verwendete Diagramme zur Visualisierung dieser Art von Daten sind:

  • Balkendiagramm
  • Mosaikparzellen
  • Boxplots nach Gruppe

Die folgenden Beispiele zeigen, wie jedes dieser Diagramme in R erstellt wird.

Beispiel 1: Balkendiagramme

Der folgende Code zeigt, wie Sie ein Balkendiagramm erstellen, um die Häufigkeit von Verschiebungen in einem bestimmten Datenrahmen zu visualisieren:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create bar chart of teams
ggplot(df, aes (x=team)) +
  geom_bar()

Die x-Achse zeigt den Namen jedes Teams und die y-Achse zeigt die Häufigkeit jedes Teams im Datenrahmen.

Wir können auch den folgenden Code verwenden, um die Balken im Diagramm vom größten zum kleinsten zu ordnen:

 #create bar chart of teams, ordered from large to small
ggplot(df, aes (x= reorder (team, team, function (x)- length (x)))) +
  geom_bar(fill=' steelblue ') +
  labs(x=' Team ') 

Beispiel 2: Boxplots nach Gruppe

Cluster-Boxplots sind eine nützliche Methode zur Visualisierung einer numerischen Variablen, gruppiert nach einer kategorialen Variablen.

Der folgende Code zeigt beispielsweise, wie Boxplots erstellt werden, die die Verteilung der erzielten Punkte, gruppiert nach Team, anzeigen:

 library (ggplot2)

#create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create boxplots of points, grouped by team
ggplot(df, aes (x=team, y=points)) +
  geom_boxplot(fill=' steelblue ')

Die x-Achse zeigt die Teams und die y-Achse zeigt die Verteilung der von jedem Team erzielten Punkte.

Beispiel 3: Mosaikplot

Ein gekacheltes Diagramm ist ein Diagrammtyp, der die Häufigkeiten zweier verschiedener kategorialer Variablen in einem einzigen Diagramm anzeigt.

Der folgende Code zeigt beispielsweise, wie ein Mosaikdiagramm erstellt wird, das die Häufigkeit der kategorialen Variablen „Ergebnis“ und „Team“ in einem einzelnen Diagramm zeigt:

 #create data frame
df <- data. frame (result = c('W', 'L', 'W', 'W', 'W', 'L', 'W', 'L', 'W', 'L'),
                 team = c('B', 'B', 'B', 'B', 'D', 'A', 'A', 'A', 'C', 'C'),
                 points = c(12, 28, 19, 22, 32, 45, 22, 28, 13, 19),
                 rebounds = c(5, 7, 7, 12, 11, 4, 10, 7, 8, 8))

#create table of counts
counts <- table(df$result, df$team)

#create mosaic plot
mosaicplot(counts, xlab=' Game Result ', ylab=' Team ',
           main=' Wins by Team ', col=' steelblue ') 

Mosaikgelände in R

Die x-Achse zeigt das Spielergebnis und die y-Achse zeigt die vier verschiedenen Teams.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie man andere gängige Diagramme in R erstellt:

So erstellen Sie ein gestapeltes Barplot in R
So erstellen Sie ein Cluster-Barplot in R
So erstellen Sie ein gestapeltes Punktdiagramm in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert