So führen sie eine datengruppierung in r durch: mit beispielen


Sie können eine von zwei Methoden verwenden, um die Datengruppierung in R durchzuführen:

Methode 1: Verwenden Sie die Funktion cut()

 library (dplyr)

#perform binning with custom breaks
df %>% mutate(new_bin = cut(variable_name, breaks=c(0, 10, 20, 30)))

#perform binning with specific number of bins
df %>% mutate(new_bin = cut(variable_name, breaks= 3 ))

Methode 2: Verwenden Sie die Funktion ntile()

 library (dplyr)

#perform binning with specific number of bins
df %>% mutate(new_bin = ntile(variable_name, n= 3 ))

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Datenrahmen verwendet wird:

 #create data frame
df <- data. frame (points=c(4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25),
                 assists=c(2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8),
                 rebounds=c(7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9))

#view head of data frame
head(df)

  points assists rebounds
1 4 2 7
2 4 5 7
3 7 4 4
4 8 7 6
5 12 7 3
6 13 8 8

Beispiel 1: Datengruppierung mit der Funktion cut() durchführen

Der folgende Code zeigt, wie eine Datengruppierung für die Variable „points“ mithilfe der Funktion „cut()“ mit bestimmten Bruchmarken durchgeführt wird:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks=c(0, 10, 20, 30)))

   points assists rebounds points_bin
1 4 2 7 (0.10]
2 4 5 7 (0.10]
3 7 4 4 (0.10]
4 8 7 6 (0.10]
5 12 7 3 (10.20]
6 13 8 8 (10.20]
7 15 5 9 (10.20]
8 18 4 9 (10.20]
9 22 5 12 (20.30]
10 23 11 11 (20.30]
11 23 13 8 (20.30]
12 25 8 9 (20.30]

Beachten Sie, dass jede Zeile im Datenrahmen basierend auf dem Wert der Punktspalte in eine von drei Gruppen eingeordnet wurde.

Wir könnten auch die Anzahl der Sprünge angeben, die verwendet werden sollen, um Kästchen gleicher Breite zu erstellen, die vom Minimalwert bis zum Maximalwert der Punktespalte reichen:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = cut(points, breaks= 3 ))

   points assists rebounds points_bin
1 4 2 7 (3.98.11]
2 4 5 7 (3.98.11]
3 7 4 4 (3.98.11]
4 8 7 6 (3.98.11]
5 12 7 3 (11.18]
6 13 8 8 (11.18]
7 15 5 9 (11.18]
8 18 4 9 (11.18]
9 22 5 12 (18.25]
10 23 11 11 (18.25]
11 23 13 8 (18.25]
12 25 8 9 (18.25]

Beispiel 2: Datengruppierung mit der Funktion ntile() durchführen

Der folgende Code zeigt, wie eine Datengruppierung für die Punktevariable mithilfe der Funktion ntile() mit einer bestimmten Anzahl resultierender Gruppen durchgeführt wird:

 library (dplyr)

#perform data binning on variable points
df %>% mutate(points_bin = ntile(points, n= 3 ))

   points assists rebounds points_bin
1 4 2 7 1
2 4 5 7 1
3 7 4 4 1
4 8 7 6 1
5 12 7 3 2
6 13 8 8 2
7 15 5 9 2
8 18 4 9 2
9 22 5 12 3
10 23 11 11 3
11 23 13 8 3
12 25 8 9 3

Beachten Sie, dass jeder Zeile basierend auf dem Punktspaltenwert ein Kästchen von 1 bis 3 zugewiesen wurde.

Am besten verwenden Sie die Funktion ntile() , wenn in jeder Zeile ein ganzzahliger Wert anstelle eines Intervalls angezeigt werden soll, das den Bereich der Bin angibt.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in R ausführen:

So ersetzen Sie Werte im Datenrahmen in R bedingt
So berechnen Sie einen getrimmten Mittelwert in R
So berechnen Sie den bedingten Mittelwert in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert