Pandas: csv ファイルをインポートするときにタイプを指定する方法
CSV ファイルをパンダにインポートするときに、次の基本構文を使用して DataFrame の各列のタイプを指定できます。
df = pd. read_csv (' my_data.csv ', dtype = {' col1 ': str , ' col2 ': float , ' col3 ': int })
dtype引数は、CSV ファイルを pandas DataFrame にインポートするときに各列が持つ必要があるデータ型を指定します。
次の例は、この構文を実際に使用する方法を示しています。
例: CSV ファイルを Pandas にインポートするときにタイプを指定する
Basketball_data.csvという次の CSV ファイルがあるとします。
read_csv()関数を使用して CSV ファイルをインポートすると、パンダは各列のデータ型を自動的に識別しようとします。
import pandas as pd #import CSV file df = pd. read_csv (' basketball_data.csv ') #view resulting DataFrame print (df) At 22 10 0 B 14 9 1 C 29 6 2 D 30 2 3 E 22 9 4 F 31 10 #view data type of each column print ( df.dtypes ) team object int64 dots rebounds int64 dtype:object
結果から、DataFrame の列には次のデータ型があることがわかります。
- チーム:オブジェクト
- ポイント: int64
- バウンス: int64
ただし、 read_csv()関数のdtype引数を使用して、各列に必要なデータ型を指定できます。
import pandas as pd #import CSV file and specify dtype of each column df = pd. read_csv (' basketball_data.csv ', dtype = {' team ': str , ' points ': float , ' rebounds ': int })) #view resulting DataFrame print (df) At 22 10 0 B 14 9 1 C 29 6 2 D 30 2 3 E 22 9 4 F 31 10 #view data type of each column print ( df.dtypes ) team object float64 points rebounds int32 dtype:object
結果から、DataFrame の列には次のデータ型があることがわかります。
- チーム:オブジェクト
- ポイント: float64
- バウンス: int32
これらのデータ型は、 dtype引数を使用して指定したデータ型に対応します。
この例では、DataFrame の各列の型を指定していることに注意してください。
ただし、特定の列のみに型を指定し、残りの列の型をパンダに推測させるように選択することもできます。
注: pandas read_csv()関数の完全なドキュメントはここで見つけることができます。
追加リソース
次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。
Pandas: CSV ファイルを読み取るときに行をスキップする方法
パンダ: 既存の CSV ファイルにデータを追加する方法
Pandas: ヘッダーなしで CSV ファイルを読み取る方法
Pandas: CSV ファイルをインポートするときに列名を設定する方法