Come utilizzare fread() in r per importare file più velocemente


È possibile utilizzare la funzione fread() del pacchetto data.table in R per importare file in modo rapido e semplice.

Questa funzione utilizza la seguente sintassi di base:

 library (data.table)

df <- fread(" C:\\Users\\Path\\To\\My\\data.csv ")

Per i file di grandi dimensioni, questa funzione è risultata significativamente più veloce rispetto a funzioni come read.csv dalla base R.

E nella maggior parte dei casi, questa funzione può anche rilevare automaticamente il delimitatore e i tipi di colonna per il set di dati che stai importando.

L’esempio seguente mostra come utilizzare questa funzione nella pratica.

Esempio: come utilizzare feed() per importare file in R

Diciamo che ho un file CSV chiamato data.csv salvato nel seguente percorso:

C:\Utenti\Bob\Desktop\data.csv

E supponiamo che il file CSV contenga i seguenti dati:

 team, points, assists
'A', 78, 12
'B', 85, 20
'C', 93, 23
'D', 90, 8
'E', 91, 14

Posso usare la funzione fread() del pacchetto data.table per importare questo file nel mio attuale ambiente R:

 library (data.table)

#import data
df <- fread("C:\Users\Bob\Desktop\data.csv")

#viewdata
df

  team points assists
1 A 78 12
2 B 85 20
3 C 93 23
4 D 90 8
5 E 91 14

Siamo in grado di importare con successo il file CSV utilizzando la funzione fread() .

Nota : abbiamo utilizzato doppie barre rovesciate (\\) nel percorso del file per evitare un errore di importazione comune .

Tieni presente che non abbiamo nemmeno bisogno di specificare il delimitatore poiché la funzione fread() ha rilevato automaticamente che si trattava di una virgola.

Se utilizziamo la funzione str() per visualizzare la struttura del data frame, possiamo vedere che la funzione fread() ha identificato automaticamente anche il tipo di oggetto per ciascuna colonna:

 #view structure of data
str(df)

Classes 'data.table' and 'data.frame': 5 obs. of 3 variables:
 $ team: chr "'A'" "'B'" "'C'" "'D'" ...
 $points: int 78 85 93 90 91
 $assists: int 12 20 23 8 14

Dal risultato possiamo vedere:

  • La variabile squadra è un carattere.
  • La variabile points è un numero intero.
  • La variabile helper è un numero intero.

In questo esempio, abbiamo utilizzato un piccolo frame di dati per semplicità (5 righe x 3 colonne), ma in pratica la funzione fread() è in grado di importare in modo rapido ed efficiente blocchi di dati contenenti decine di migliaia di righe, rendendolo il metodo di importazione preferito per set di dati su larga scala.

Risorse addizionali

I seguenti tutorial spiegano come importare tipi di file specifici in R:

Come importare file Excel in R
Come importare file TSV in R
Come importare file Zip in R
Come importare file SAS in R
Come importare file .dta in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *