So greifen sie auf beispieldatensätze in pandas zu

Von Dr. Benjamin Anderson Juli 19, 2023 Führung Keine Kommentare

Häufig möchten Sie möglicherweise auf Beispieldatensätze in Pandas zugreifen, um verschiedene Funktionen auszuprobieren und zu üben.

Glücklicherweise können Sie mit der integrierten Testfunktion Beispiel-Pandas-Datensätze erstellen.

Die folgenden Beispiele zeigen, wie Sie diese Funktion verwenden.

Beispiel 1: Erstellen Sie einen Pandas-Datensatz mit allen numerischen Spalten

Der folgende Code zeigt, wie man einen Pandas-Datensatz mit allen numerischen Spalten erstellt:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

Standardmäßig erstellt die Funktion makeDataFrame() einen Pandas-DataFrame mit 30 Zeilen und 4 Spalten, in dem alle Spalten numerisch sind.

Beispiel 2: Erstellen Sie einen Pandas-Datensatz mit gemischten Spalten

Der folgende Code zeigt, wie man einen Pandas-Datensatz mit allen numerischen Spalten erstellt:

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

Standardmäßig erstellt die Funktion makeMixedDataFrame() einen Pandas-DataFrame mit 5 Zeilen und 4 Spalten, in dem die Spalten verschiedene Datentypen aufweisen.

Wir können den folgenden Code verwenden, um den Datentyp jeder Spalte anzuzeigen:

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

Aus dem Ergebnis können wir sehen:

Spalte A ist numerisch
Spalte B ist numerisch
Spalte C ist eine Zeichenfolge
Spalte D ist ein Datum

Beispiel 3: Erstellen Sie einen Pandas-Datensatz mit fehlenden Werten

Der folgende Code zeigt, wie man einen Pandas-Datensatz mit fehlenden Werten in verschiedenen Spalten erstellt:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

Standardmäßig erstellt die Funktion makeMissingDataFrame() einen Pandas-DataFrame mit 30 Zeilen und 4 Spalten, in dem in verschiedenen Spalten fehlende Werte (NaN) vorhanden sind.

Diese Funktion ist besonders nützlich, da sie es Ihnen ermöglicht, mit einem Datensatz zu arbeiten, der fehlende Werte aufweist, was in realen Datensätzen häufig vorkommt.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in Pandas ausführen:

So erstellen Sie einen Pandas DataFrame mit Zufallsdaten
Wie man Zeilen in Pandas zufällig abtastet
So mischen Sie Zeilen in einem Pandas DataFrame

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen