Comment accéder à des exemples d’ensembles de données dans Pandas
Souvent, vous souhaiterez peut-être accéder à des exemples d’ensembles de données dans les pandas pour jouer et pratiquer différentes fonctions.
Heureusement, vous pouvez créer des exemples d’ensembles de données pandas en utilisant la fonction de test intégrée.
Les exemples suivants montrent comment utiliser cette fonctionnalité.
Exemple 1 : Créer un ensemble de données Pandas avec toutes les colonnes numériques
Le code suivant montre comment créer un ensemble de données pandas avec toutes les colonnes numériques :
import pandas as pd
#create sample dataset
df1 = pd.util.testing.makeDataFrame()
#view dimensions of dataset
print(df1.shape)
(30, 4)
#view first five rows of dataset
print(df1.head())
A B C D
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gaR9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
Par défaut, la fonction makeDataFrame() crée un DataFrame pandas avec 30 lignes et 4 colonnes dans lesquelles toutes les colonnes sont numériques.
Exemple 2 : Créer un ensemble de données Pandas avec des colonnes mixtes
Le code suivant montre comment créer un ensemble de données pandas avec toutes les colonnes numériques :
import pandas as pd
#create sample dataset
df2 = pd.util.testing.makeMixedDataFrame()
#view dimensions of dataset
print(df2.shape)
(5, 4)
#view first five rows of dataset
print(df2.head())
A B C D
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
Par défaut, la fonction makeMixedDataFrame() crée un DataFrame pandas avec 5 lignes et 4 colonnes dans lesquelles les colonnes sont une variété de types de données.
Nous pouvons utiliser le code suivant pour afficher le type de données de chaque colonne :
#display data type of each column
df2.dtypes
A float64
B float64
C object
D datetime64[ns]
dtype: object
À partir du résultat, nous pouvons voir :
- La colonne A est numérique
- La colonne B est numérique
- La colonne C est une chaîne
- La colonne D est une date
Exemple 3 : Créer un ensemble de données Pandas avec des valeurs manquantes
Le code suivant montre comment créer un ensemble de données pandas avec des valeurs manquantes dans diverses colonnes :
import pandas as pd
#create sample dataset
df3 = pd.util.testing.makeMissingDataFrame()
#view dimensions of dataset
print(df3.shape)
(30, 4)
#view first five rows of dataset
print(df3.head())
A B C D
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
Par défaut, la fonction makeMissingDataFrame() crée un DataFrame pandas avec 30 lignes et 4 colonnes dans lequel il y a des valeurs manquantes (NaN) dans différentes colonnes.
Cette fonction est particulièrement utile car elle vous permet de travailler avec un ensemble de données comportant des valeurs manquantes, ce qui est courant dans les ensembles de données du monde réel.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :
Comment créer un DataFrame Pandas avec des données aléatoires
Comment échantillonner aléatoirement des lignes dans Pandas
Comment mélanger les lignes dans un DataFrame Pandas