Hoe fread() in r te gebruiken om bestanden sneller te importeren
U kunt de functie fread() van het pakket data.table in R gebruiken om bestanden snel en eenvoudig te importeren.
Deze functie gebruikt de volgende basissyntaxis:
library (data.table) df <- fread(" C:\\Users\\Path\\To\\My\\data.csv ")
Voor grote bestanden bleek deze functie aanzienlijk sneller te zijn dan functies zoals read.csv uit basis R.
En in de meeste gevallen kan deze functie ook automatisch de scheidingstekens en kolomtypen detecteren voor de gegevensset die u importeert.
Het volgende voorbeeld laat zien hoe u deze functie in de praktijk kunt gebruiken.
Voorbeeld: hoe u feed() gebruikt om bestanden in R te importeren
Laten we zeggen dat ik een CSV-bestand met de naam data.csv heb opgeslagen op de volgende locatie:
C:\Gebruikers\Bob\Desktop\data.csv
En stel dat het CSV-bestand de volgende gegevens bevat:
team, points, assists 'A', 78, 12 'B', 85, 20 'C', 93, 23 'D', 90, 8 'E', 91, 14
Ik kan de functie fread() van het data.table- pakket gebruiken om dit bestand in mijn huidige R-omgeving te importeren:
library (data.table) #import data df <- fread("C:\Users\Bob\Desktop\data.csv") #viewdata df team points assists 1 A 78 12 2 B 85 20 3 C 93 23 4 D 90 8 5 E 91 14
We kunnen het CSV-bestand met succes importeren met de functie fread() .
Opmerking : we hebben dubbele backslashes (\\) in het bestandspad gebruikt om een veelvoorkomende importfout te voorkomen.
Merk op dat we het scheidingsteken ook niet hoefden op te geven, omdat de functie fread() automatisch detecteerde dat het een komma was.
Als we de functie str() gebruiken om de structuur van het dataframe weer te geven, kunnen we zien dat de functie fread() ook automatisch het objecttype voor elke kolom heeft geïdentificeerd:
#view structure of data
str(df)
Classes 'data.table' and 'data.frame': 5 obs. of 3 variables:
$ team: chr "'A'" "'B'" "'C'" "'D'" ...
$points: int 78 85 93 90 91
$assists: int 12 20 23 8 14
Uit het resultaat kunnen we zien:
- De teamvariabele is een karakter.
- De puntenvariabele is een geheel getal.
- De helpervariabele is een geheel getal.
In dit voorbeeld hebben we voor de eenvoud een klein dataframe gebruikt (5 rijen x 3 kolommen), maar in de praktijk kan de functie fread() snel en efficiënt datablokken importeren die tienduizenden rijen bevatten, waardoor dit de geprefereerde importmethode is. voor grootschalige datasets.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u specifieke bestandstypen in R importeert:
Excel-bestanden importeren in R
TSV-bestanden importeren in R
Zip-bestanden importeren in R
SAS-bestanden importeren in R
Hoe .dta-bestanden te importeren in R