Come accedere ai set di dati di esempio in pandas
Spesso potresti voler accedere a set di dati di esempio nei panda per giocare ed esercitarti con diverse funzioni.
Fortunatamente, puoi creare set di dati di panda di esempio utilizzando la funzione di test integrata.
Gli esempi seguenti mostrano come utilizzare questa funzionalità.
Esempio 1: creare un set di dati Pandas con tutte le colonne numeriche
Il codice seguente mostra come creare un set di dati panda con tutte le colonne numeriche:
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
Per impostazione predefinita, la funzione makeDataFrame() crea un DataFrame panda con 30 righe e 4 colonne in cui tutte le colonne sono numeriche.
Esempio 2: creare un set di dati Pandas con colonne miste
Il codice seguente mostra come creare un set di dati panda con tutte le colonne numeriche:
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
Per impostazione predefinita, la funzione makeMixedDataFrame() crea un DataFrame panda con 5 righe e 4 colonne in cui le colonne rappresentano una varietà di tipi di dati.
Possiamo utilizzare il seguente codice per visualizzare il tipo di dati di ciascuna colonna :
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
Dal risultato possiamo vedere:
- La colonna A è numerica
- La colonna B è numerica
- La colonna C è una stringa
- La colonna D è una data
Esempio 3: creare un set di dati Pandas con valori mancanti
Il codice seguente mostra come creare un set di dati panda con valori mancanti in varie colonne:
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
Per impostazione predefinita, la funzione makeMissingDataFrame() crea un DataFrame panda con 30 righe e 4 colonne in cui sono presenti valori mancanti (NaN) in diverse colonne.
Questa funzionalità è particolarmente utile perché consente di lavorare con un set di dati che presenta valori mancanti, cosa comune nei set di dati del mondo reale.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni nei panda:
Come creare un Pandas DataFrame con dati casuali
Come campionare casualmente le righe in Pandas
Come mescolare le righe in un DataFrame Pandas