Cara mengakses contoh kumpulan data di pandas
Seringkali Anda mungkin ingin mengakses contoh kumpulan data di panda untuk memainkan dan mempraktikkan fungsi yang berbeda.
Untungnya, Anda dapat membuat contoh kumpulan data panda menggunakan fungsi pengujian bawaan.
Contoh berikut menunjukkan cara menggunakan fitur ini.
Contoh 1: Buat kumpulan data Pandas dengan semua kolom numerik
Kode berikut menunjukkan cara membuat dataset pandas dengan semua kolom numerik:
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
Secara default, fungsi makeDataFrame() membuat DataFrame panda dengan 30 baris dan 4 kolom yang semua kolomnya berupa angka.
Contoh 2: Buat Kumpulan Data Pandas dengan Kolom Campuran
Kode berikut menunjukkan cara membuat dataset pandas dengan semua kolom numerik:
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
Secara default, fungsi makeMixedDataFrame() membuat Pandas DataFrame dengan 5 baris dan 4 kolom yang kolomnya merupakan berbagai tipe data.
Kita dapat menggunakan kode berikut untuk menampilkan tipe data setiap kolom :
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
Dari hasilnya kita dapat melihat:
- Kolom A adalah angka
- Kolom B adalah angka
- Kolom C adalah string
- Kolom D adalah tanggal
Contoh 3: Buat Kumpulan Data Pandas dengan Nilai yang Hilang
Kode berikut menunjukkan cara membuat dataset pandas dengan nilai yang hilang di berbagai kolom:
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
Secara default, fungsi makeMissingDataFrame() membuat pandas DataFrame dengan 30 baris dan 4 kolom yang di dalamnya terdapat nilai yang hilang (NaN) di kolom yang berbeda.
Fitur ini sangat berguna karena memungkinkan Anda bekerja dengan kumpulan data yang memiliki nilai yang hilang, hal yang umum terjadi pada kumpulan data dunia nyata.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di panda:
Cara membuat Pandas DataFrame dengan data acak
Cara mengambil sampel baris secara acak di Pandas
Cara mengacak baris di Pandas DataFrame