Jak uzyskać dostęp do przykładowych zbiorów danych w pandach

Przez Benjamin Anderson 19 lipca, 2023 Przewodnik 0 komentarzy

Często możesz chcieć uzyskać dostęp do przykładowych zbiorów danych w pandach, aby grać i ćwiczyć różne funkcje.

Na szczęście możesz utworzyć przykładowe zestawy danych pand, korzystając z wbudowanej funkcji testowania .

Poniższe przykłady pokazują, jak korzystać z tej funkcji.

Przykład 1: Utwórz zbiór danych Pandas ze wszystkimi kolumnami liczbowymi

Poniższy kod pokazuje, jak utworzyć zbiór danych pand ze wszystkimi kolumnami liczbowymi:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

Domyślnie funkcja makeDataFrame() tworzy pandę DataFrame z 30 wierszami i 4 kolumnami, w których wszystkie kolumny są numeryczne.

Przykład 2: Utwórz zbiór danych Pandas z kolumnami mieszanymi

Poniższy kod pokazuje, jak utworzyć zbiór danych pand ze wszystkimi kolumnami liczbowymi:

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

Domyślnie funkcja makeMixedDataFrame() tworzy pandę DataFrame z 5 wierszami i 4 kolumnami, w których kolumny reprezentują różne typy danych.

Możemy użyć następującego kodu, aby wyświetlić typ danych każdej kolumny :

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

Z wyniku możemy zobaczyć:

Kolumna A jest liczbowa
Kolumna B jest liczbowa
Kolumna C jest ciągiem znaków
Kolumna D to data

Przykład 3: Utwórz zbiór danych Pandy z brakującymi wartościami

Poniższy kod pokazuje, jak utworzyć zbiór danych pand z brakującymi wartościami w różnych kolumnach:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

Domyślnie funkcja makeMissingDataFrame() tworzy pandę DataFrame z 30 wierszami i 4 kolumnami, w których w różnych kolumnach występują braki danych (NaN).

Ta funkcja jest szczególnie przydatna, ponieważ umożliwia pracę ze zbiorem danych zawierającym brakujące wartości, co jest powszechne w zbiorach danych w świecie rzeczywistym.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w pandach:

Jak utworzyć ramkę danych Pandas z losowymi danymi
Jak losowo próbkować wiersze w Pandach
Jak przetasować wiersze w ramce danych Pandas

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej