كيفية الوصول إلى مجموعات البيانات النموذجية في pandas
في كثير من الأحيان قد ترغب في الوصول إلى مجموعات البيانات النموذجية في الباندا للعب وممارسة وظائف مختلفة.
لحسن الحظ، يمكنك إنشاء نماذج لمجموعات بيانات الباندا باستخدام وظيفة الاختبار المضمنة.
توضح الأمثلة التالية كيفية استخدام هذه الميزة.
المثال 1: إنشاء مجموعة بيانات Pandas تحتوي على جميع الأعمدة الرقمية
يوضح التعليمة البرمجية التالية كيفية إنشاء مجموعة بيانات الباندا مع جميع الأعمدة الرقمية:
import pandas as pd
#create sample dataset
df1 = pd. util . testing . makeDataFrame ()
#view dimensions of dataset
print ( df1.shape )
(30, 4)
#view first five rows of dataset
print ( df1.head ())
ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553
بشكل افتراضي، تقوم الدالة makeDataFrame() بإنشاء إطار بيانات الباندا مع 30 صفًا و4 أعمدة تكون جميع الأعمدة فيها رقمية.
المثال 2: إنشاء مجموعة بيانات Pandas ذات أعمدة مختلطة
يوضح التعليمة البرمجية التالية كيفية إنشاء مجموعة بيانات الباندا مع جميع الأعمدة الرقمية:
import pandas as pd
#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()
#view dimensions of dataset
print ( df2.shape )
(5, 4)
#view first five rows of dataset
print ( df2.head ())
ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
بشكل افتراضي، تقوم الدالة makeMixedDataFrame() بإنشاء إطار بيانات الباندا مع 5 صفوف و4 أعمدة حيث تكون الأعمدة عبارة عن مجموعة متنوعة من أنواع البيانات.
يمكننا استخدام الكود التالي لعرض نوع البيانات لكل عمود :
#display data type of each column
df2. dtypes
A float64
B float64
C object
D datetime64[ns]
dtype:object
ومن النتيجة يمكننا أن نرى:
- العمود A رقمي
- العمود B رقمي
- العمود C عبارة عن سلسلة
- العمود D هو التاريخ
المثال 3: إنشاء مجموعة بيانات Pandas بقيم مفقودة
يوضح التعليمة البرمجية التالية كيفية إنشاء مجموعة بيانات الباندا مع القيم المفقودة في أعمدة مختلفة:
import pandas as pd
#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()
#view dimensions of dataset
print ( df3.shape )
(30, 4)
#view first five rows of dataset
print ( df3.head ())
ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN
افتراضيًا، تقوم الدالة makeMissingDataFrame() بإنشاء إطار بيانات الباندا الذي يحتوي على 30 صفًا و4 أعمدة تحتوي على قيم مفقودة (NaN) في أعمدة مختلفة.
تعتبر هذه الميزة مفيدة بشكل خاص لأنها تتيح لك العمل مع مجموعة بيانات تحتوي على قيم مفقودة، وهو أمر شائع في مجموعات البيانات الواقعية.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في الباندا:
كيفية إنشاء Pandas DataFrame ببيانات عشوائية
كيفية أخذ عينات عشوائية من الصفوف في الباندا
كيفية خلط الصفوف في Pandas DataFrame