Panda's: typen opgeven bij het importeren van een csv-bestand
U kunt de volgende basissyntaxis gebruiken om het type van elke kolom in een DataFrame op te geven bij het importeren van een CSV-bestand in panda’s:
df = pd. read_csv (' my_data.csv ', dtype = {' col1 ': str , ' col2 ': float , ' col3 ': int })
Het dtype- argument specificeert het gegevenstype dat elke kolom moet hebben bij het importeren van het CSV-bestand in een Panda DataFrame.
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld: Geef typen op bij het importeren van een CSV-bestand in Pandas
Laten we zeggen dat we het volgende CSV-bestand hebben met de naam basketball_data.csv :
Als we het CSV-bestand importeren met behulp van de read_csv() functie, zullen panda’s proberen het gegevenstype voor elke kolom automatisch te identificeren:
import pandas as pd #import CSV file df = pd. read_csv (' basketball_data.csv ') #view resulting DataFrame print (df) At 22 10 0 B 14 9 1 C 29 6 2 D 30 2 3 E 22 9 4 F 31 10 #view data type of each column print ( df.dtypes ) team object int64 dots rebounds int64 dtype:object
Uit het resultaat kunnen we zien dat de kolommen van het DataFrame de volgende gegevenstypen hebben:
- team :object
- punten : int64
- stuitert : int64
We kunnen echter het argument dtype in de functie read_csv() gebruiken om de gegevenstypen op te geven die elke kolom zou moeten hebben:
import pandas as pd #import CSV file and specify dtype of each column df = pd. read_csv (' basketball_data.csv ', dtype = {' team ': str , ' points ': float , ' rebounds ': int })) #view resulting DataFrame print (df) At 22 10 0 B 14 9 1 C 29 6 2 D 30 2 3 E 22 9 4 F 31 10 #view data type of each column print ( df.dtypes ) team object float64 points rebounds int32 dtype:object
Uit het resultaat kunnen we zien dat de kolommen van het DataFrame de volgende gegevenstypen hebben:
- team :object
- punten : float64
- stuitert : int32
Deze gegevenstypen komen overeen met de gegevenstypen die we hebben opgegeven met behulp van het dtype- argument.
Houd er rekening mee dat we in dit voorbeeld het type voor elke kolom in het DataFrame hebben opgegeven.
U kunt er echter voor kiezen om het type alleen voor specifieke kolommen op te geven en panda’s het type voor de overige kolommen te laten afleiden.
Opmerking : u kunt de volledige documentatie van de pandas read_csv() functie hier vinden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:
Panda’s: regels overslaan bij het lezen van een CSV-bestand
Panda’s: gegevens toevoegen aan een bestaand CSV-bestand
Panda’s: een CSV-bestand lezen zonder headers
Panda’s: kolomnamen instellen bij het importeren van een CSV-bestand