Comment accéder à des exemples d’ensembles de données dans Pandas

Par Dr. Benjamin Anderson juillet 19, 2023 Guide 0 commentaire

Souvent, vous souhaiterez peut-être accéder à des exemples d’ensembles de données dans les pandas pour jouer et pratiquer différentes fonctions.

Heureusement, vous pouvez créer des exemples d’ensembles de données pandas en utilisant la fonction de test intégrée.

Les exemples suivants montrent comment utiliser cette fonctionnalité.

Exemple 1 : Créer un ensemble de données Pandas avec toutes les colonnes numériques

Le code suivant montre comment créer un ensemble de données pandas avec toutes les colonnes numériques :

import pandas as pd

#create sample dataset
df1 = pd.util.testing.makeDataFrame()

#view dimensions of dataset
print(df1.shape)

(30, 4)

#view first five rows of dataset
print(df1.head())

                   A         B         C         D
s8tpz0W5mF -0.751223  0.956338 -0.441847  0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK  0.727880  0.128638 -0.989993  1.094069
IH3bptMpdb -1.599723  1.570162 -0.221688  2.194936
gaR9ZxBTrH  0.025171 -0.446555  0.169873 -1.583553

Par défaut, la fonction makeDataFrame() crée un DataFrame pandas avec 30 lignes et 4 colonnes dans lesquelles toutes les colonnes sont numériques.

Exemple 2 : Créer un ensemble de données Pandas avec des colonnes mixtes

Le code suivant montre comment créer un ensemble de données pandas avec toutes les colonnes numériques :

import pandas as pd

#create sample dataset
df2 = pd.util.testing.makeMixedDataFrame()

#view dimensions of dataset
print(df2.shape)

(5, 4)

#view first five rows of dataset
print(df2.head())

     A    B     C          D
0  0.0  0.0  foo1 2009-01-01
1  1.0  1.0  foo2 2009-01-02
2  2.0  0.0  foo3 2009-01-05
3  3.0  1.0  foo4 2009-01-06
4  4.0  0.0  foo5 2009-01-07

Par défaut, la fonction makeMixedDataFrame() crée un DataFrame pandas avec 5 lignes et 4 colonnes dans lesquelles les colonnes sont une variété de types de données.

Nous pouvons utiliser le code suivant pour afficher le type de données de chaque colonne :

#display data type of each column
df2.dtypes

A           float64
B           float64
C            object
D    datetime64[ns]
dtype: object

À partir du résultat, nous pouvons voir :

La colonne A est numérique
La colonne B est numérique
La colonne C est une chaîne
La colonne D est une date

Exemple 3 : Créer un ensemble de données Pandas avec des valeurs manquantes

Le code suivant montre comment créer un ensemble de données pandas avec des valeurs manquantes dans diverses colonnes :

import pandas as pd

#create sample dataset
df3 = pd.util.testing.makeMissingDataFrame()

#view dimensions of dataset
print(df3.shape)

(30, 4)

#view first five rows of dataset
print(df3.head())

                   A         B         C         D
YgAQaNaGfG  0.444376 -2.264920  1.117377 -0.087507
JoT4KxJeHd  1.913939  1.287006 -0.331315 -0.392949
tyrA2P6wz3       NaN  2.988521  0.399583  0.095831
1qvPc9DU1t  0.028716  1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339  0.332067  0.204074       NaN

Par défaut, la fonction makeMissingDataFrame() crée un DataFrame pandas avec 30 lignes et 4 colonnes dans lequel il y a des valeurs manquantes (NaN) dans différentes colonnes.

Cette fonction est particulièrement utile car elle vous permet de travailler avec un ensemble de données comportant des valeurs manquantes, ce qui est courant dans les ensembles de données du monde réel.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Comment créer un DataFrame Pandas avec des données aléatoires
Comment échantillonner aléatoirement des lignes dans Pandas
Comment mélanger les lignes dans un DataFrame Pandas

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus