Pandas でサンプルデータセットにアクセスする方法

によるベンジャミン・アンダーソン博士 7月 19, 2023 ガイド 0コメント

多くの場合、パンダのサンプルデータセットにアクセスして、さまざまな関数を再生および練習したい場合があります。

幸いなことに、組み込みのテスト関数を使用してサンプルのパンダデータセットを作成できます。

次の例は、この機能の使用方法を示しています。

例 1: すべて数値列を含む Pandas データセットを作成する

次のコードは、すべて数値列を含む pandas データセットを作成する方法を示しています。

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

デフォルトでは、 makeDataFrame()関数は、すべての列が数値である 30 行 4 列の pandas DataFrame を作成します。

例 2: 混合列を含む Pandas データセットを作成する

次のコードは、すべて数値列を含む pandas データセットを作成する方法を示しています。

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

デフォルトでは、 makeMixedDataFrame()関数は、列がさまざまなデータ型である 5 行 4 列の pandas DataFrame を作成します。

次のコードを使用して、各列のデータ型を表示できます。

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

結果から次のことがわかります。

列Aは数値です
列Bは数値です
C列は文字列です
D列は日付です

例 3: 欠損値を含む Pandas データセットを作成する

次のコードは、さまざまな列に欠損値を含む pandas データセットを作成する方法を示しています。

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

デフォルトでは、 makeMissingDataFrame()関数は、さまざまな列に欠損値 (NaN) がある 30 行 4 列の pandas DataFrame を作成します。

この機能は、実際のデータセットではよくある欠損値のあるデータセットを操作できるため、特に便利です。

追加リソース

次のチュートリアルでは、パンダで他の一般的なタスクを実行する方法を説明します。

ランダムなデータを使用して Pandas DataFrame を作成する方法
 Pandas で行をランダムにサンプリングする方法
Pandas DataFrame で行をシャッフルする方法

著者について

ベンジャミン・アンダーソン博士

私はベンジャミンです。退職した統計教授から、専任の Statorials 教育者になりました。統計分野における豊富な経験と専門知識を活かして、私は Statorials を通じて学生に力を与えるために自分の知識を共有することに尽力しています。もっと知る