كيفية إجراء تحليل البيانات الاستكشافية في excel
إحدى الخطوات الأولى في أي مشروع لتحليل البيانات هي تحليل البيانات الاستكشافية .
يتضمن ذلك استكشاف مجموعة البيانات بثلاث طرق:
1. تلخيص مجموعة من البيانات باستخدام الإحصائيات الوصفية.
2. تصور مجموعة من البيانات باستخدام الرسوم البيانية.
3. تحديد القيم المفقودة.
من خلال تنفيذ هذه الإجراءات الثلاثة، يمكنك فهم كيفية توزيع القيم في مجموعة البيانات واكتشاف أي قيم إشكالية قبل الشروع فياختبار الفرضيات ، أو ملاءمة نموذج الانحدار ، أو إجراء النمذجة الإحصائية.
يوضح المثال التالي خطوة بخطوة كيفية إجراء تحليل البيانات الاستكشافية في Excel.
الخطوة 1: إنشاء مجموعة البيانات
أولاً، لنقم بإنشاء مجموعة بيانات بسيطة تحتوي على معلومات حول 10 لاعبي كرة سلة مختلفين:
تحتوي مجموعة البيانات هذه على ثلاثة متغيرات (النقاط، المرتدات، التمريرات الحاسمة) وبعض المتغيرات لها قيم فارغة أو NA، وهو أمر شائع في مجموعات البيانات في العالم الحقيقي.
الخطوة 2: تلخيص البيانات
بعد ذلك، يمكننا حساب القيم المتوسطة والوسيطة والربيعية والحد الأدنى والحد الأقصى لكل من المتغيرات الثلاثة في مجموعة البيانات هذه:
فيما يلي الصيغة التي استخدمناها لكل خلية في العمود B:
- B13 : =المتوسط( B2:B11 )
- B14 : =الوسيط( B2:B11 )
- B15 : =الربع( B2:B11 ، 1)
- B16 : =الربع( B2:B11 ، 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
قمنا بعد ذلك بسحب كل صيغة إلى اليمين حتى نتمكن من حساب نفس المقاييس للقيم الموجودة في العمودين C وD.
ومن خلال حساب هذه الإحصائيات الوصفية لكل متغير، يمكننا الحصول على فهم جيد لتوزيع القيم لكل متغير.
ملاحظة : تتجاهل كل صيغة تلقائيًا القيم الفارغة أو قيم NA عند حساب كل إحصائية وصفية.
الخطوة 3: تصور البيانات
يمكننا أيضًا إنشاء رسوم بيانية لتصور قيم مجموعة البيانات.
على سبيل المثال، لتصور توزيع القيم لمتغير النقاط، يمكننا تمييز القيم في نطاق الخلايا B2:B11 ، ثم النقر فوق علامة التبويب “إدراج ” بطول الشريط العلوي، ثم النقر فوق أيقونة الرسم البياني في مجموعة الرسومات :
سيتم إنشاء الرسم البياني التالي تلقائيًا:
يتيح لك هذا الرسم البياني تصور توزيع النقاط التي سجلها اللاعبون.
على سبيل المثال يمكننا أن نرى:
- سجل 4 لاعبين ما بين 10 و15 نقطة.
- سجل لاعب واحد ما بين 15 إلى 20 نقطة.
- سجل لاعبان ما بين 20 إلى 25 نقطة.
- سجل 3 لاعبين ما بين 25 و30 نقطة.
يمكننا تكرار هذه العملية لكل متغير في مجموعة البيانات الخاصة بنا لتصور توزيع القيم لكل متغير.
الخطوة 4: تحديد القيم المفقودة
يمكننا أيضًا استخدام الصيغة التالية لحساب عدد القيم المفقودة في العمود B:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
يمكننا كتابة هذه الصيغة في الخلية B19 ، ثم سحبها إلى اليمين لحساب عدد القيم المفقودة لكل متغير في مجموعة البيانات:
ومن النتيجة يمكننا أن نرى:
- هناك 0 قيم مفقودة في عمود النقاط.
- هناك قيمتان مفقودتان في عمود الارتدادات.
- توجد قيمة واحدة مفقودة في عمود “المساعدات”.
لقد أكملنا الآن بعض تحليل البيانات الاستكشافية الأساسية لمجموعة البيانات هذه واكتسبنا فهمًا جيدًا لكيفية توزيع القيم لكل متغير في مجموعة البيانات هذه.
ذات صلة: كيفية استبدال الخلايا الفارغة بالصفر في برنامج Excel
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية تنفيذ المهام الشائعة الأخرى في Excel:
كيفية حساب ملخص لخمسة أرقام في برنامج إكسل
كيفية حساب المتوسط حسب المجموعة في إكسيل
كيفية حساب الحد الأقصى للقيمة لكل مجموعة في إكسيل