ما هي البيانات عالية الأبعاد؟ (تعريف وأمثلة)
تشير البيانات عالية الأبعاد إلى مجموعة بيانات يكون فيها عدد الميزات p أكبر من عدد الملاحظات N ، وغالبًا ما يتم كتابتها كـ p >> N.
على سبيل المثال، مجموعة بيانات تحتوي على ميزات p = 6 وملاحظات N = 3 فقط ستُعتبر بيانات عالية الأبعاد لأن عدد الميزات أكبر من عدد الملاحظات.
من الأخطاء الشائعة التي يرتكبها الناس هو افتراض أن “البيانات عالية الأبعاد” تعني ببساطة مجموعة بيانات تحتوي على العديد من الميزات. ومع ذلك، هذا غير صحيح. قد تحتوي مجموعة البيانات على 10000 ميزة، ولكن إذا كانت تحتوي على 100000 ملاحظة، فهي ليست عالية الأبعاد.
ملحوظة: ارجع إلى الفصل 18 من عناصر التعلم الإحصائي لإجراء مناقشة متعمقة للرياضيات التي تعتمد على البيانات عالية الأبعاد.
لماذا تعتبر البيانات عالية الأبعاد مشكلة؟
عندما يتجاوز عدد الميزات في مجموعة البيانات عدد الملاحظات، فلن نحصل أبدًا على إجابة حتمية.
بمعنى آخر، يصبح من المستحيل العثور على نموذج يمكنه وصف العلاقة بين المتغيرات المتنبئة ومتغير الاستجابة ، لأنه ليس لدينا ملاحظات كافية لتدريب النموذج عليها.
أمثلة على البيانات عالية الأبعاد
توضح الأمثلة التالية مجموعات البيانات عالية الأبعاد في مجالات مختلفة.
مثال 1: البيانات الصحية
تعد البيانات عالية الأبعاد شائعة في مجموعات بيانات الرعاية الصحية حيث يمكن أن يكون عدد الميزات الخاصة بفرد معين هائلاً (مثل ضغط الدم، ومعدل ضربات القلب أثناء الراحة، وحالة الجهاز المناعي، والتاريخ الجراحي، والطول، والوزن، والظروف الحالية، وما إلى ذلك).
في مجموعات البيانات هذه، من الشائع أن يكون عدد الميزات أكبر من عدد الملاحظات.
مثال 2: البيانات المالية
تعد البيانات عالية الأبعاد شائعة أيضًا في مجموعات البيانات المالية حيث يمكن أن يكون عدد الميزات الخاصة بسهم معين كبيرًا جدًا (مثل نسبة PE، والقيمة السوقية، وحجم التداول، ومعدل الأرباح، وما إلى ذلك).
في هذه الأنواع من مجموعات البيانات، من الشائع أن يكون عدد الكيانات أكبر بكثير من عدد الإجراءات الفردية.
المثال 3: علم الجينوم
البيانات عالية الأبعاد شائعة أيضًا في مجال علم الجينوم، حيث يمكن أن يكون عدد الخصائص الجينية لفرد معين هائلاً.
كيفية التعامل مع البيانات الكبيرة
هناك طريقتان شائعتان لمعالجة البيانات عالية الأبعاد:
1. اختر تضمين ميزات أقل.
الطريقة الأكثر وضوحًا لتجنب التعامل مع البيانات عالية الأبعاد هي ببساطة تضمين عدد أقل من الميزات في مجموعة البيانات.
هناك عدة طرق لتحديد الميزات المطلوب إزالتها من مجموعة البيانات، بما في ذلك:
- إزالة المعالم التي تحتوي على العديد من القيم المفقودة: إذا كان عمود معين في مجموعة بيانات يحتوي على العديد من القيم المفقودة، فقد تتمكن من إزالته بالكامل دون فقدان الكثير من المعلومات.
- إزالة ميزات التباين المنخفض: إذا كان عمود معين في مجموعة بيانات يحتوي على قيم تتغير قليلاً جدًا، فقد تتمكن من إزالته لأنه من غير المرجح أن يقدم معلومات مفيدة حول متغير الاستجابة أكبر من الميزات الأخرى.
- إزالة الميزات ذات الارتباط المنخفض مع متغير الاستجابة: إذا لم تكن هناك ميزة معينة مرتبطة بشكل كبير بمتغير الاستجابة الذي تهتم به، فمن المحتمل أن تتمكن من إزالتها من مجموعة البيانات، لأنه من غير المرجح أن تكون ميزة مفيدة في النموذج.
2. استخدم طريقة التنظيم.
هناك طريقة أخرى للتعامل مع البيانات عالية الأبعاد دون إزالة الميزات من مجموعة البيانات وهي استخدام تقنية التنظيم مثل:
يمكن استخدام كل من هذه التقنيات لمعالجة البيانات عالية الأبعاد بكفاءة.
يمكنك العثور على قائمة كاملة بجميع البرامج التعليمية للتعلم الآلي الإحصائي على هذه الصفحة .