Hoe u toegang krijgt tot voorbeeldgegevenssets in pandas

Von Dr.benjamin anderson Juli 19, 2023 Gids Keine Kommentare

Vaak wil je misschien toegang krijgen tot voorbeelddatasets in panda’s om verschillende functies te spelen en te oefenen.

Gelukkig kunt u voorbeeldpanda-gegevenssets maken met behulp van de ingebouwde testfunctie .

De volgende voorbeelden laten zien hoe u deze functie kunt gebruiken.

Voorbeeld 1: Maak een Pandas-gegevensset met alle numerieke kolommen

De volgende code laat zien hoe u een panda-gegevensset maakt met alle numerieke kolommen:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

Standaard maakt de functie makeDataFrame() een pandas DataFrame met 30 rijen en 4 kolommen waarin alle kolommen numeriek zijn.

Voorbeeld 2: Maak een Pandas-gegevensset met gemengde kolommen

De volgende code laat zien hoe u een panda-gegevensset maakt met alle numerieke kolommen:

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

Standaard maakt de functie makeMixedDataFrame() een pandas DataFrame met 5 rijen en 4 kolommen waarin de kolommen verschillende gegevenstypen zijn.

We kunnen de volgende code gebruiken om het gegevenstype van elke kolom weer te geven:

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

Uit het resultaat kunnen we zien:

Kolom A is numeriek
Kolom B is numeriek
Kolom C is een tekenreeks
Kolom D is een datum

Voorbeeld 3: Maak een Pandas-gegevensset met ontbrekende waarden

De volgende code laat zien hoe u een panda-gegevensset maakt met ontbrekende waarden in verschillende kolommen:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

Standaard creëert de functie makeMissingDataFrame() een pandas DataFrame met 30 rijen en 4 kolommen waarin er ontbrekende waarden (NaN) zijn in verschillende kolommen.

Deze functie is vooral handig omdat u hiermee kunt werken met een gegevensset waarin waarden ontbreken, wat gebruikelijk is in gegevenssets uit de echte wereld.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Hoe u een Pandas DataFrame maakt met willekeurige gegevens
Hoe willekeurig rijen in Panda’s te bemonsteren
Rijen in een Pandas DataFrame in willekeurige volgorde afspelen

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder