Как получить доступ к образцам наборов данных в pandas
Часто вам может потребоваться доступ к образцам наборов данных в пандах, чтобы поиграть и попрактиковаться в различных функциях.
К счастью, вы можете создать образцы наборов данных Pandas, используя встроенную функцию тестирования .
Следующие примеры показывают, как использовать эту функцию.
Пример 1. Создайте набор данных Pandas со всеми числовыми столбцами.
Следующий код показывает, как создать набор данных pandas со всеми числовыми столбцами:
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
По умолчанию функция makeDataFrame() создает DataFrame pandas с 30 строками и 4 столбцами, в которых все столбцы являются числовыми.
Пример 2. Создайте набор данных Pandas со смешанными столбцами
Следующий код показывает, как создать набор данных pandas со всеми числовыми столбцами:
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
По умолчанию функция makeMixedDataFrame() создает DataFrame pandas с 5 строками и 4 столбцами, в которых столбцы представляют собой различные типы данных.
Мы можем использовать следующий код для отображения типа данных каждого столбца :
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
По результату мы видим:
- Столбец A является числовым
- Столбец B является числовым
- Столбец C представляет собой строку
- Столбец D — дата.
Пример 3. Создайте набор данных Pandas с отсутствующими значениями
Следующий код показывает, как создать набор данных pandas с отсутствующими значениями в различных столбцах:
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
По умолчанию функция makeMissingDataFrame() создает DataFrame pandas с 30 строками и 4 столбцами, в которых в разных столбцах есть пропущенные значения (NaN).
Эта функция особенно полезна, поскольку позволяет работать с набором данных, в котором отсутствуют значения, что часто встречается в реальных наборах данных.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:
Как создать DataFrame Pandas со случайными данными
Как случайным образом выбирать строки в Pandas
Как перетасовать строки в DataFrame Pandas