التوحيد أو التطبيع: ما الفرق؟
التوحيد والتطبيع هما طريقتان لتغيير حجم البيانات.
تقوم التسوية بقياس مجموعة بيانات بحيث يكون متوسطها 0 وانحرافها المعياري 1. وللقيام بذلك، تستخدم الصيغة التالية:
x جديد = (x i – x ) / s
ذهب:
- x i : القيمة i لمجموعة البيانات
- x : تعني العينة
- s : الانحراف المعياري للعينة
تعمل التسوية على تغيير حجم مجموعة البيانات بحيث تكون كل قيمة بين 0 و1. ويتم ذلك باستخدام الصيغة التالية:
x جديد = (x i – x min ) / (x max – x min )
ذهب:
- x i : القيمة i لمجموعة البيانات
- x min : الحد الأدنى للقيمة في مجموعة البيانات
- x max : الحد الأقصى للقيمة في مجموعة البيانات
توضح الأمثلة التالية كيفية توحيد مجموعة البيانات وتطبيعها عمليًا.
مثال: كيفية توحيد البيانات
لنفترض أن لدينا مجموعة البيانات التالية:
متوسط القيمة في مجموعة البيانات هو 43.15 والانحراف المعياري هو 22.13.
لتطبيع القيمة الأولى 13 ، سنطبق الصيغة التي تمت مشاركتها مسبقًا:
- س جديد = (س ط – س ) / ق = (13 – 43.15) / 22.13 = -1.36
لتطبيع القيمة الثانية 16 ، سنستخدم نفس الصيغة:
- س جديد = (س ط – س ) / ق = (16 – 43.15) / 22.13 = -1.23
لتطبيع القيمة الثالثة 19 ، سنستخدم نفس الصيغة:
- س جديد = (س ط – س ) / ق = (19 – 43.15) / 22.13 = -1.09
يمكننا استخدام هذه الصيغة نفسها لتوحيد كل قيمة في مجموعة البيانات الأصلية:
مثال: كيفية تطبيع البيانات
مرة أخرى، لنفترض أن لدينا مجموعة البيانات التالية:
الحد الأدنى للقيمة في مجموعة البيانات هو 13 والحد الأقصى للقيمة هو 71.
لتطبيع القيمة الأولى 13 ، سنطبق الصيغة التي تمت مشاركتها مسبقًا:
- x جديد = (x i – x min ) / (x max – x min ) = (13 – 13) / (71 – 13) = 0
لتطبيع القيمة الثانية 16 ، سنستخدم نفس الصيغة:
- x جديد = (x i – x min ) / (x max – x min ) = (16 – 13) / (71 – 13) = 0.0517
لتطبيع القيمة الثالثة 19 ، سنستخدم نفس الصيغة:
- x جديد = (x i – x min ) / (x max – x min ) = (19 – 13) / (71 – 13) = 0.1034
يمكننا استخدام هذه الصيغة نفسها لتطبيع كل قيمة في مجموعة البيانات الأصلية بين 0 و1:
التوحيد أو التطبيع: متى نستخدمهما؟
عادةً، نقوم بتطبيع البيانات عندما نقوم بنوع من التحليل الذي لدينا فيه متغيرات متعددة يتم قياسها بمقاييس مختلفة ونريد أن يكون لكل متغير نفس النطاق.
وهذا يمنع متغير واحد من التأثير بشكل غير مبرر، خاصة إذا تم قياسه بوحدات مختلفة (أي إذا تم قياس متغير واحد بالبوصة وآخر بالياردة).
من ناحية أخرى، نقوم عادةً بتطبيع البيانات عندما نريد معرفة عدد الانحرافات المعيارية لكل قيمة في مجموعة بيانات عن المتوسط.
على سبيل المثال، قد تكون لدينا قائمة بدرجات الامتحانات لـ 500 طالب في مدرسة معينة ونرغب في معرفة عدد الانحرافات المعيارية لكل درجة اختبار عن متوسط الدرجات.
في هذه الحالة، يمكننا تطبيع البيانات الأولية لمعرفة هذه المعلومات. ومن ثم، فإن النتيجة الموحدة البالغة 1.26 ستخبرنا أن درجة اختبار هذا الطالب بالذات هي 1.26 انحراف معياري أعلى من متوسط درجة الاختبار.
سواء قررت تسوية بياناتك أو توحيدها، ضع النقاط التالية في الاعتبار:
- ستحتوي مجموعة البيانات المقيسة دائمًا على قيم تتراوح بين 0 و1.
- سيكون لمجموعة البيانات الموحدة متوسط 0 وانحراف معياري 1، ولكن لا يوجد حد أعلى أو أدنى محدد للقيم القصوى والدنيا.
اعتمادًا على السيناريو الخاص بك، قد يكون من المنطقي أكثر تسوية البيانات أو توحيدها.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية توحيد البيانات وتطبيعها في برامج إحصائية مختلفة:
كيفية تطبيع البيانات في R
كيفية تطبيع البيانات في إكسل
كيفية تطبيع البيانات في بايثون
كيفية توحيد البيانات في R