So greifen sie auf beispieldatensätze in pandas zu
Häufig möchten Sie möglicherweise auf Beispieldatensätze in Pandas zugreifen, um verschiedene Funktionen auszuprobieren und zu üben.
Glücklicherweise können Sie mit der integrierten Testfunktion Beispiel-Pandas-Datensätze erstellen.
Die folgenden Beispiele zeigen, wie Sie diese Funktion verwenden.
Beispiel 1: Erstellen Sie einen Pandas-Datensatz mit allen numerischen Spalten
Der folgende Code zeigt, wie man einen Pandas-Datensatz mit allen numerischen Spalten erstellt:
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
Standardmäßig erstellt die Funktion makeDataFrame() einen Pandas-DataFrame mit 30 Zeilen und 4 Spalten, in dem alle Spalten numerisch sind.
Beispiel 2: Erstellen Sie einen Pandas-Datensatz mit gemischten Spalten
Der folgende Code zeigt, wie man einen Pandas-Datensatz mit allen numerischen Spalten erstellt:
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
Standardmäßig erstellt die Funktion makeMixedDataFrame() einen Pandas-DataFrame mit 5 Zeilen und 4 Spalten, in dem die Spalten verschiedene Datentypen aufweisen.
Wir können den folgenden Code verwenden, um den Datentyp jeder Spalte anzuzeigen:
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
Aus dem Ergebnis können wir sehen:
- Spalte A ist numerisch
- Spalte B ist numerisch
- Spalte C ist eine Zeichenfolge
- Spalte D ist ein Datum
Beispiel 3: Erstellen Sie einen Pandas-Datensatz mit fehlenden Werten
Der folgende Code zeigt, wie man einen Pandas-Datensatz mit fehlenden Werten in verschiedenen Spalten erstellt:
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
Standardmäßig erstellt die Funktion makeMissingDataFrame() einen Pandas-DataFrame mit 30 Zeilen und 4 Spalten, in dem in verschiedenen Spalten fehlende Werte (NaN) vorhanden sind.
Diese Funktion ist besonders nützlich, da sie es Ihnen ermöglicht, mit einem Datensatz zu arbeiten, der fehlende Werte aufweist, was in realen Datensätzen häufig vorkommt.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in Pandas ausführen:
So erstellen Sie einen Pandas DataFrame mit Zufallsdaten
Wie man Zeilen in Pandas zufällig abtastet
So mischen Sie Zeilen in einem Pandas DataFrame