Kompletny przewodnik: jak czytać pliki csv za pomocą pand
Pliki CSV (wartości rozdzielane przecinkami) to jeden z najpopularniejszych sposobów przechowywania danych.
Na szczęście funkcja pandas read_csv() umożliwia łatwe odczytywanie plików CSV w Pythonie w niemal dowolnym formacie.
W tym samouczku wyjaśniono kilka sposobów odczytywania plików CSV w Pythonie przy użyciu następującego pliku CSV o nazwie „data.csv” :
playerID,team,points 1,Lakers,26 2,Mavs,19 3,Bucks,24 4,Spurs,22
Przykład 1: Wczytaj plik CSV do ramki DataFrame pandy
Poniższy kod pokazuje, jak wczytać plik CSV do ramki DataFrame pandy:
#import CSV file as DataFrame df = pd. read_csv ('data.csv') #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Przykład 2: Odczytaj określone kolumny z pliku CSV
Poniższy kod pokazuje, jak wczytać tylko kolumny oznaczone „playerID” i „points” z pliku CSV do ramki DataFrame pandy:
#import only specific columns from CSV file df = pd. read_csv ('data.csv', usecols=[' playerID ',' points ']) #view DataFrame df playerID points 0 1 26 1 2 19 2 3 24 3 4 22
Możesz także określić indeksy kolumn do wczytania w ramce DataFrame pandy:
#import only specific columns from CSV file df = pd. read_csv (' data.csv ', usecols=[ 0,1 ]) #view DataFrame df playerID team 0 1 Lakers 1 2 Mavs 2 3 Bucks 3 4 Spurs
Przykład 3: Określ wiersz nagłówka podczas importowania pliku CSV
W niektórych przypadkach wiersz nagłówka może nie być pierwszym wierszem w pliku CSV.
Rozważmy na przykład następujący plik CSV, w którym wiersz nagłówka faktycznie pojawia się w drugim wierszu:
random,data,values
playerID,team,points
1,Lakers,26
2,Mavs,19
3,Bucks,24
4,Spurs,22
Aby odczytać ten plik CSV do ramki DataFrame pandy, możemy określić header=1 w następujący sposób:
#import from CSV file and specify that header starts on second row df = pd. read_csv ('data.csv', header= 1 ) #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Przykład 4: Pomiń wiersze podczas importowania pliku CSV
Możesz także łatwo pominąć wiersze podczas importowania pliku CSV, używając argumentu skiprows .
Na przykład poniższy kod pokazuje, jak zignorować drugą linię podczas importowania pliku CSV:
#import from CSV file and skip second row df = pd. read_csv ('data.csv', skiprows=[ 1 ] ) #view DataFrame df playerID team points 0 2 Mavs 19 1 3 Bucks 24 2 4 Spurs 22
Poniższy kod pokazuje, jak zignorować drugą i trzecią linię podczas importowania pliku CSV:
#import from CSV file and skip second and third rows df = pd. read_csv ('data.csv', skiprows=[ 1,2 ] ) #view DataFrame df playerID team points 1 3 Bucks 24 2 4 Spurs 22
Przykład 5: Czytaj pliki CSV z niestandardowym ogranicznikiem
Czasami możesz mieć plik CSV z ogranicznikiem innym niż przecinek.
Załóżmy na przykład, że nasz plik CSV zawiera podkreślenie jako ogranicznik:
playerID_team_points
1_Lakers_26
2_Mavs_19
3_Bucks_24
4_Spurs_22
Aby wczytać ten plik CSV do pand, możemy użyć argumentu sep , aby określić ogranicznik, który będzie używany podczas odczytu pliku:
#import from CSV file and specify delimiter to use df = pd. read_csv ('data.csv', sep=' _ ') #view DataFrame df playerID team points 0 1 Lakers 26 1 2 Mavs 19 2 3 Bucks 24 3 4 Spurs 22
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania związane z pandą:
Jak odczytać plik tekstowy za pomocą Pand
Jak czytać pliki Excel za pomocą Pand
Jak czytać pliki TSV za pomocą Pand
Jak czytać tabele HTML za pomocą Pand