วิธีเข้าถึงชุดข้อมูลตัวอย่างใน pandas


บ่อยครั้งที่คุณอาจต้องการเข้าถึงชุดข้อมูลตัวอย่างในแพนด้าเพื่อเล่นและฝึกฝนฟังก์ชันต่างๆ

โชคดีที่คุณสามารถสร้างชุดข้อมูลแพนด้าตัวอย่างได้โดยใช้ฟังก์ชัน การทดสอบ ในตัว

ตัวอย่างต่อไปนี้แสดงวิธีใช้คุณลักษณะนี้

ตัวอย่างที่ 1: สร้างชุดข้อมูล Pandas ที่มีคอลัมน์ตัวเลขทั้งหมด

รหัสต่อไปนี้แสดงวิธีการสร้างชุดข้อมูลแพนด้าที่มีคอลัมน์ตัวเลขทั้งหมด:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

ตามค่าเริ่มต้น ฟังก์ชัน makeDataFrame() จะสร้าง DataFrame แพนด้าที่มี 30 แถวและ 4 คอลัมน์ โดยที่คอลัมน์ทั้งหมดเป็นตัวเลข

ตัวอย่างที่ 2: สร้างชุดข้อมูล Pandas ด้วยคอลัมน์แบบผสม

รหัสต่อไปนี้แสดงวิธีการสร้างชุดข้อมูลแพนด้าที่มีคอลัมน์ตัวเลขทั้งหมด:

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

ตามค่าเริ่มต้น ฟังก์ชัน makeMixedDataFrame() จะสร้าง Pandas DataFrame ที่มี 5 แถวและ 4 คอลัมน์ โดยที่คอลัมน์จะมีประเภทข้อมูลที่หลากหลาย

เราสามารถใช้รหัสต่อไปนี้เพื่อแสดง ประเภทข้อมูลของแต่ละคอลัมน์ :

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

จากผลลัพธ์เราจะเห็นได้ว่า:

  • คอลัมน์ A เป็นตัวเลข
  • คอลัมน์ B เป็นตัวเลข
  • คอลัมน์ C เป็นสตริง
  • คอลัมน์ D คือวันที่

ตัวอย่างที่ 3: สร้างชุดข้อมูล Pandas ที่มีค่าหายไป

รหัสต่อไปนี้แสดงวิธีสร้างชุดข้อมูล pandas ที่มีค่าหายไปในคอลัมน์ต่างๆ:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

ตามค่าเริ่มต้น ฟังก์ชัน makeMissingDataFrame() จะสร้าง pandas DataFrame ที่มี 30 แถว และ 4 คอลัมน์ ซึ่งมีค่าหายไป (NaN) ในคอลัมน์ต่างๆ

คุณลักษณะนี้มีประโยชน์อย่างยิ่งเนื่องจากช่วยให้คุณสามารถทำงานกับชุดข้อมูลที่มีค่าขาดหายไป ซึ่งเป็นเรื่องปกติในชุดข้อมูลในโลกแห่งความเป็นจริง

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีการทำงานทั่วไปอื่นๆ ในแพนด้า:

วิธีสร้าง Pandas DataFrame ด้วยข้อมูลแบบสุ่ม
วิธีสุ่มตัวอย่างแถวใน Pandas
วิธีสุ่มแถวใน Pandas DataFrame

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *