So wählen sie zufällige zeilen in r mit dplyr aus
Sie können die folgenden Methoden verwenden, um zufällige Zeilen in einem Datenrahmen in R mithilfe von Funktionen im dplyr- Paket auszuwählen:
Methode 1: Wählen Sie eine zufällige Anzahl von Zeilen aus
df %>% sample_n( 5 )
Diese Funktion wählt zufällig 5 Zeilen aus dem Datenrahmen aus.
Methode 2: Wählen Sie einen zufälligen Bruchteil von Zeilen aus
df %>% sample_frac( .25 )
Diese Funktion wählt zufällig 25 % aller Zeilen im Datenrahmen aus.
Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Datenrahmen in R verwendet wird:
#create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
points=c(10, 10, 8, 6, 15, 15, 12, 12),
rebounds=c(8, 8, 4, 3, 10, 11, 7, 7))
#view data frame
df
team points rebounds
1 to 10 8
2 B 10 8
3 C 8 4
4 D 6 3
5 E 15 10
6 F 15 11
7 G 12 7
8:12 a.m. 7
Beispiel 1: Wählen Sie eine zufällige Anzahl von Zeilen aus
Mit dem folgenden Code können wir zufällig 5 Zeilen aus dem Datenrahmen auswählen:
library (dplyr)
#randomly select 5 rows from data frame
df %>% sample_n( 5 )
team points rebounds
1 F 15 11
2 to 10 8
3 D 6 3
4 G 12 7
5 B 10 8
Beachten Sie, dass fünf Zeilen zufällig aus dem Datenrahmen ausgewählt werden.
Beispiel 2: Wählen Sie einen zufälligen Bruchteil von Zeilen aus
Mit dem folgenden Code können wir 25 % aller Zeilen im Datenrahmen zufällig auswählen:
library (dplyr)
#randomly select 25% of all rows from data frame
df %>% sample_frac( .25 )
team points rebounds
1 E 15 10
2 G 12 7
Da der ursprüngliche Datenrahmen 8 Gesamtwerte hatte, sind 25 % von 8 gleich 2.
Somit werden zwei Zeilen zufällig aus dem Datenrahmen ausgewählt.
Hinweis : Die vollständige Dokumentation der Funktionen „sample_n“ und „sample_frac“ in dplyr finden Sie hier .
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere gängige Vorgänge in dplyr ausführen:
So wählen Sie Spalten nach Index mit dplyr aus
So wählen Sie mit dplyr die erste Zeile nach Gruppe aus
So filtern Sie mit dplyr nach mehreren Bedingungen
So filtern Sie Zeilen, die eine bestimmte Zeichenfolge enthalten, mit dplyr