如何访问 pandas 中的示例数据集


通常,您可能希望访问 pandas 中的示例数据集来玩和练习不同的功能。

幸运的是,您可以使用内置的测试功能创建示例 pandas 数据集。

以下示例展示了如何使用此功能。

示例 1:创建包含所有数字列的 Pandas 数据集

以下代码显示了如何创建包含所有数字列的 pandas 数据集:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

默认情况下, makeDataFrame()函数创建一个具有 30 行和 4 列的 pandas DataFrame,其中所有列都是数字。

示例 2:创建具有混合列的 Pandas 数据集

以下代码显示了如何创建包含所有数字列的 pandas 数据集:

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

默认情况下, makeMixedDataFrame()函数创建一个 5 行 4 列的 pandas DataFrame,其中列是多种数据类型。

我们可以使用下面的代码来显示每一列的数据类型

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

从结果我们可以看出:

  • A 列是数字
  • B 列是数字
  • C列是一个字符串
  • D 列是日期

示例 3:创建包含缺失值的 Pandas 数据集

以下代码展示了如何创建各列中缺少值的 pandas 数据集:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

默认情况下, makeMissingDataFrame()函数创建一个30行4列的pandas DataFrame,其中不同列中存在缺失值(NaN)。

此功能特别有用,因为它允许您处理具有缺失值的数据集,这在现实数据集中很常见。

其他资源

以下教程解释了如何在 pandas 中执行其他常见任务:

如何使用随机数据创建 Pandas DataFrame
如何在 Pandas 中随机采样行
如何打乱 Pandas DataFrame 中的行

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注