Como acessar conjuntos de dados de amostra no pandas

By Dr. benjamim anderson Julho 19, 2023 Guia 0 Comments

Muitas vezes você pode querer acessar conjuntos de dados de amostra em pandas para jogar e praticar diferentes funções.

Felizmente, você pode criar conjuntos de dados de amostra do pandas usando a função de teste integrada.

Os exemplos a seguir mostram como usar esse recurso.

Exemplo 1: Crie um conjunto de dados Pandas com todas as colunas numéricas

O código a seguir mostra como criar um conjunto de dados pandas com todas as colunas numéricas:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

Por padrão, a função makeDataFrame() cria um DataFrame do pandas com 30 linhas e 4 colunas em que todas as colunas são numéricas.

Exemplo 2: Crie um conjunto de dados Pandas com colunas mistas

O código a seguir mostra como criar um conjunto de dados pandas com todas as colunas numéricas:

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

Por padrão, a função makeMixedDataFrame() cria um DataFrame do pandas com 5 linhas e 4 colunas nas quais as colunas são uma variedade de tipos de dados.

Podemos usar o seguinte código para exibir o tipo de dados de cada coluna :

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

Pelo resultado podemos ver:

A coluna A é numérica
A coluna B é numérica
A coluna C é uma string
A coluna D é uma data

Exemplo 3: Crie um conjunto de dados Pandas com valores ausentes

O código a seguir mostra como criar um conjunto de dados pandas com valores ausentes em várias colunas:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

Por padrão, a função makeMissingDataFrame() cria um DataFrame do pandas com 30 linhas e 4 colunas nas quais existem valores faltantes (NaN) em colunas diferentes.

Esse recurso é particularmente útil porque permite trabalhar com um conjunto de dados que possui valores ausentes, o que é comum em conjuntos de dados do mundo real.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:

Como criar um DataFrame Pandas com dados aleatórios
Como amostrar linhas aleatoriamente no Pandas
Como embaralhar linhas em um DataFrame do Pandas

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais