Pandas: excel ファイルをインポートするときにタイプを指定する方法
Excel ファイルを pandas にインポートするときに、次の基本構文を使用して DataFrame の各列の型を指定できます。
df = pd. read_excel (' my_data.xlsx ', dtype = {' col1 ': str , ' col2 ': float , ' col3 ': int })
dtype引数は、Excel ファイルを pandas DataFrame にインポートするときに各列が持つ必要があるデータ型を指定します。
次の例は、この構文を実際に使用する方法を示しています。
例: Excel ファイルを Pandas にインポートする際のタイプの指定
player_data.xlsxという次の Excel ファイルがあるとします。
read_excel()関数を使用して Excel ファイルをインポートすると、パンダは各列のデータ型を自動的に識別しようとします。
import pandas as pd #import Excel file df = pd. read_excel (' player_data.xlsx ') #view resulting DataFrame print (df) team points rebound assists 0 to 24 8 5 1 B 20 12 3 2 C 15 4 7 3 D 19 4 8 4 E 32 6 8 5 F 13 7 9 #view data type of each column print ( df.dtypes ) team object int64 dots rebounds int64 assists int64 dtype:object
結果から、DataFrame の列には次のデータ型があることがわかります。
- チーム:オブジェクト
- ポイント: int64
- バウンス: int64
- アシスト: int64
ただし、 read_excel()関数のdtype引数を使用して、各列に必要なデータ型を指定できます。
import pandas as pd #import Excel file and specify dtypes of columns df = pd. read_excel (' player_data.xlsx ', dtype = {' team ': str , ' points ': float , ' rebounds ': int , ' assists ': float }) #view resulting DataFrame print (df) team points rebound assists 0 A 24.0 8 5.0 1 B 20.0 12 3.0 2 C 15.0 4 7.0 3 D 19.0 4 8.0 4 E 32.0 6 8.0 5 F 13.0 7 9.0 #view data type of each column print ( df.dtypes ) team object float64 points rebounds int32 assist float64 dtype:object
結果から、DataFrame の列には次のデータ型があることがわかります。
- チーム:オブジェクト
- ポイント: float64
- バウンス: int32
- アシスト: float64
これらのデータ型は、 dtype引数を使用して指定したデータ型に対応します。
この例では、DataFrame の各列の型を指定していることに注意してください。
ただし、特定の列のみに型を指定し、残りの列の型をパンダに推測させるように選択することもできます。
注: pandas read_excel()関数の完全なドキュメントはここで見つけることができます。
追加リソース
次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。
パンダ: Excel ファイルを読み取るときに行をスキップする方法
パンダ: 複数の Excel シートを結合する方法
パンダ: 複数の Excel シートにまたがる DataFrame を記述する方法