วิธีเข้าถึงชุดข้อมูลตัวอย่างใน pandas
บ่อยครั้งที่คุณอาจต้องการเข้าถึงชุดข้อมูลตัวอย่างในแพนด้าเพื่อเล่นและฝึกฝนฟังก์ชันต่างๆ
โชคดีที่คุณสามารถสร้างชุดข้อมูลแพนด้าตัวอย่างได้โดยใช้ฟังก์ชัน การทดสอบ ในตัว
ตัวอย่างต่อไปนี้แสดงวิธีใช้คุณลักษณะนี้
ตัวอย่างที่ 1: สร้างชุดข้อมูล Pandas ที่มีคอลัมน์ตัวเลขทั้งหมด
รหัสต่อไปนี้แสดงวิธีการสร้างชุดข้อมูลแพนด้าที่มีคอลัมน์ตัวเลขทั้งหมด:
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
ตามค่าเริ่มต้น ฟังก์ชัน makeDataFrame() จะสร้าง DataFrame แพนด้าที่มี 30 แถวและ 4 คอลัมน์ โดยที่คอลัมน์ทั้งหมดเป็นตัวเลข
ตัวอย่างที่ 2: สร้างชุดข้อมูล Pandas ด้วยคอลัมน์แบบผสม
รหัสต่อไปนี้แสดงวิธีการสร้างชุดข้อมูลแพนด้าที่มีคอลัมน์ตัวเลขทั้งหมด:
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
ตามค่าเริ่มต้น ฟังก์ชัน makeMixedDataFrame() จะสร้าง Pandas DataFrame ที่มี 5 แถวและ 4 คอลัมน์ โดยที่คอลัมน์จะมีประเภทข้อมูลที่หลากหลาย
เราสามารถใช้รหัสต่อไปนี้เพื่อแสดง ประเภทข้อมูลของแต่ละคอลัมน์ :
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
จากผลลัพธ์เราจะเห็นได้ว่า:
- คอลัมน์ A เป็นตัวเลข
- คอลัมน์ B เป็นตัวเลข
- คอลัมน์ C เป็นสตริง
- คอลัมน์ D คือวันที่
ตัวอย่างที่ 3: สร้างชุดข้อมูล Pandas ที่มีค่าหายไป
รหัสต่อไปนี้แสดงวิธีสร้างชุดข้อมูล pandas ที่มีค่าหายไปในคอลัมน์ต่างๆ:
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
ตามค่าเริ่มต้น ฟังก์ชัน makeMissingDataFrame() จะสร้าง pandas DataFrame ที่มี 30 แถว และ 4 คอลัมน์ ซึ่งมีค่าหายไป (NaN) ในคอลัมน์ต่างๆ
คุณลักษณะนี้มีประโยชน์อย่างยิ่งเนื่องจากช่วยให้คุณสามารถทำงานกับชุดข้อมูลที่มีค่าขาดหายไป ซึ่งเป็นเรื่องปกติในชุดข้อมูลในโลกแห่งความเป็นจริง
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีการทำงานทั่วไปอื่นๆ ในแพนด้า:
วิธีสร้าง Pandas DataFrame ด้วยข้อมูลแบบสุ่ม
วิธีสุ่มตัวอย่างแถวใน Pandas
วิธีสุ่มแถวใน Pandas DataFrame