Bagaimana cara menyimpan pandas dataframe untuk digunakan nanti (dengan contoh)


Seringkali Anda mungkin ingin menyimpan pandas DataFrame untuk digunakan nanti tanpa harus mengimpor ulang data dari file CSV.

Cara termudah untuk melakukannya adalah dengan menggunakan to_pickle() untuk menyimpan DataFrame sebagai file acar:

 df. to_pickle (" my_data.pkl ")

Ini akan menyimpan DataFrame di lingkungan kerja Anda saat ini.

Anda kemudian dapat menggunakan read_pickle() untuk membaca DataFrame dengan cepat dari file acar:

 df = pd. read_pickle (" my_data.pkl ")

Contoh berikut menunjukkan cara menggunakan fungsi-fungsi ini dalam praktiknya.

Contoh: simpan dan muat Pandas DataFrame

Misalkan kita membuat pandas DataFrame berikut yang berisi informasi tentang berbagai tim bola basket:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Kita bisa menggunakan df.info() untuk menampilkan tipe data setiap variabel di DataFrame:

 #view DataFrame info
print ( df.info ())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 # Column Non-Null Count Dtype 
--- ------ -------------- ----- 
 0 team 8 non-null object
 1 point 8 non-null int64 
 2 assists 8 non-null int64 
 3 rebounds 8 non-null int64 
dtypes: int64(3), object(1)
memory usage: 292.0+ bytes
None

Kita dapat menggunakan fungsi to_pickle() untuk menyimpan DataFrame ini ke file acar dengan ekstensi .pkl :

 #save DataFrame to pickle file
df. to_pickle (" my_data.pkl ")

DataFrame kami sekarang disimpan sebagai file acar di lingkungan kerja kami saat ini.

Kita kemudian dapat menggunakan fungsi read_pickle() untuk membaca DataFrame dengan cepat:

 #read DataFrame from pickle file
df=pd. read_pickle (" my_data.pkl ")

#view DataFrame
print (df)

team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Kita dapat menggunakan df.info() lagi untuk mengonfirmasi bahwa tipe data setiap kolom sama seperti sebelumnya:

 #view DataFrame info
print ( df.info ())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 # Column Non-Null Count Dtype 
--- ------ -------------- ----- 
 0 team 8 non-null object
 1 point 8 non-null int64 
 2 assists 8 non-null int64 
 3 rebounds 8 non-null int64 
dtypes: int64(3), object(1)
memory usage: 292.0+ bytes
None

Keuntungan menggunakan file acar adalah tipe data setiap kolom dipertahankan saat kita menyimpan dan memuat DataFrame.

Hal ini memberikan keuntungan dibandingkan menyimpan dan memuat file CSV karena kita tidak perlu melakukan transformasi apa pun pada DataFrame karena file acar mempertahankan status asli DataFrame.

Sumber daya tambahan

Tutorial berikut menjelaskan cara memperbaiki kesalahan umum lainnya dengan Python:

Cara Memperbaiki KeyError di Pandas
Cara Memperbaiki: ValueError: Tidak dapat mengubah float NaN menjadi int
Cara Memperbaiki: ValueError: Operan tidak dapat disiarkan dengan bentuk

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *