Panda's: typen opgeven bij het importeren van een csv-bestand


U kunt de volgende basissyntaxis gebruiken om het type van elke kolom in een DataFrame op te geven bij het importeren van een CSV-bestand in panda’s:

 df = pd. read_csv (' my_data.csv ',
                 dtype = {' col1 ': str , ' col2 ': float , ' col3 ': int })

Het dtype- argument specificeert het gegevenstype dat elke kolom moet hebben bij het importeren van het CSV-bestand in een Panda DataFrame.

Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.

Voorbeeld: Geef typen op bij het importeren van een CSV-bestand in Pandas

Laten we zeggen dat we het volgende CSV-bestand hebben met de naam basketball_data.csv :

Als we het CSV-bestand importeren met behulp van de read_csv() functie, zullen panda’s proberen het gegevenstype voor elke kolom automatisch te identificeren:

 import pandas as pd

#import CSV file
df = pd. read_csv (' basketball_data.csv ')

#view resulting DataFrame
print (df)

   At 22 10
0 B 14 9
1 C 29 6
2 D 30 2
3 E 22 9
4 F 31 10

#view data type of each column
print ( df.dtypes )

team object
int64 dots
rebounds int64
dtype:object

Uit het resultaat kunnen we zien dat de kolommen van het DataFrame de volgende gegevenstypen hebben:

  • team :object
  • punten : int64
  • stuitert : int64

We kunnen echter het argument dtype in de functie read_csv() gebruiken om de gegevenstypen op te geven die elke kolom zou moeten hebben:

import pandas as pd

#import CSV file and specify dtype of each column
df = pd. read_csv (' basketball_data.csv ',
                 dtype = {' team ': str , ' points ': float , ' rebounds ': int }))

#view resulting DataFrame
print (df)

   At 22 10
0 B 14 9
1 C 29 6
2 D 30 2
3 E 22 9
4 F 31 10

#view data type of each column
print ( df.dtypes )

team object
float64 points
rebounds int32
dtype:object

Uit het resultaat kunnen we zien dat de kolommen van het DataFrame de volgende gegevenstypen hebben:

  • team :object
  • punten : float64
  • stuitert : int32

Deze gegevenstypen komen overeen met de gegevenstypen die we hebben opgegeven met behulp van het dtype- argument.

Houd er rekening mee dat we in dit voorbeeld het type voor elke kolom in het DataFrame hebben opgegeven.

U kunt er echter voor kiezen om het type alleen voor specifieke kolommen op te geven en panda’s het type voor de overige kolommen te laten afleiden.

Opmerking : u kunt de volledige documentatie van de pandas read_csv() functie hier vinden.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Panda’s: regels overslaan bij het lezen van een CSV-bestand
Panda’s: gegevens toevoegen aan een bestaand CSV-bestand
Panda’s: een CSV-bestand lezen zonder headers
Panda’s: kolomnamen instellen bij het importeren van een CSV-bestand

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert