Der ultimative leitfaden: so lesen sie csv-dateien mit pandas
CSV-Dateien (durch Kommas getrennte Werte) sind eine der gebräuchlichsten Methoden zum Speichern von Daten.
Glücklicherweise können Sie mit der Funktion pandas read_csv() ganz einfach CSV-Dateien in Python in fast jedem gewünschten Format lesen.
In diesem Tutorial werden verschiedene Möglichkeiten zum Lesen von CSV-Dateien in Python mithilfe der folgenden CSV-Datei mit dem Namen „data.csv“ erläutert:
playerID,team,points 1,Lakers,26 2,Mavs,19 3,Bucks,24 4,Spurs,22
Beispiel 1: CSV-Datei in den Pandas DataFrame einlesen
Der folgende Code zeigt, wie die CSV-Datei in einen Pandas-DataFrame eingelesen wird:
#import CSV file as DataFrame df = pd. read_csv ('data.csv') #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Beispiel 2: Bestimmte Spalten aus einer CSV-Datei lesen
Der folgende Code zeigt, wie nur die Spalten mit der Bezeichnung „playerID“ und „points“ aus der CSV-Datei in einen Pandas-DataFrame eingelesen werden:
#import only specific columns from CSV file df = pd. read_csv ('data.csv', usecols=[' playerID ',' points ']) #view DataFrame df playerID points 0 1 26 1 2 19 2 3 24 3 4 22
Sie können auch Spaltenindizes angeben, die in einen Pandas-DataFrame eingelesen werden sollen:
#import only specific columns from CSV file df = pd. read_csv (' data.csv ', usecols=[ 0,1 ]) #view DataFrame df playerID team 0 1 Lakers 1 2 Mavs 2 3 Bucks 3 4 Spurs
Beispiel 3: Geben Sie beim Importieren einer CSV-Datei die Kopfzeile an
In manchen Fällen ist die Kopfzeile möglicherweise nicht die erste Zeile in einer CSV-Datei.
Betrachten Sie beispielsweise die folgende CSV-Datei, in der die Kopfzeile tatsächlich in der zweiten Zeile erscheint:
random,data,values
playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22
Um diese CSV-Datei in einen Pandas-DataFrame einzulesen, können wir header=1 wie folgt angeben:
#import from CSV file and specify that header starts on second row df = pd. read_csv ('data.csv', header= 1 ) #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Beispiel 4: Beim Importieren einer CSV-Datei Zeilen überspringen
Sie können beim Importieren einer CSV-Datei auch problemlos Zeilen überspringen, indem Sie das Argument „skiprows“ verwenden.
Der folgende Code zeigt beispielsweise, wie die zweite Zeile beim Importieren der CSV-Datei ignoriert wird:
#import from CSV file and skip second row df = pd. read_csv ('data.csv', skiprows=[ 1 ] ) #view DataFrame df playerID team points 0 2 Mavs 19 1 3 Bucks 24 2 4 Spurs 22
Und der folgende Code zeigt, wie man die zweite und dritte Zeile beim Importieren der CSV-Datei ignoriert:
#import from CSV file and skip second and third rows df = pd. read_csv ('data.csv', skiprows=[ 1,2 ] ) #view DataFrame df playerID team points 1 3 Bucks 24 2 4 Spurs 22
Beispiel 5: CSV-Dateien mit einem benutzerdefinierten Trennzeichen lesen
Manchmal haben Sie möglicherweise eine CSV-Datei mit einem anderen Trennzeichen als einem Komma.
Angenommen, unsere CSV-Datei hat einen Unterstrich als Trennzeichen:
playerID_team_points
1_Lakers_26
2_Mavs_19
3_Bucks_24
4_Spurs_22
Um diese CSV-Datei in Pandas einzulesen, können wir das Argument sep verwenden, um das Trennzeichen anzugeben, das beim Lesen der Datei verwendet werden soll:
#import from CSV file and specify delimiter to use df = pd. read_csv ('data.csv', sep=' _ ') #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere häufige Panda-Aufgaben ausführen:
So lesen Sie eine Textdatei mit Pandas
So lesen Sie Excel-Dateien mit Pandas
So lesen Sie TSV-Dateien mit Pandas
So lesen Sie HTML-Tabellen mit Pandas