شرح بسيط للأهمية الإحصائية مقابل الأهمية العملية
الفرضية الإحصائية هي افتراض حول المعلمة السكانية . على سبيل المثال، يمكننا أن نفترض أن متوسط طول الرجل في مقاطعة معينة هو 68 بوصة. الفرضية المتعلقة بالطول هي فرضية إحصائية ومتوسط الطول الحقيقي للرجل في الولايات المتحدة هو المعلمة السكانية .
اختبار الفرضية هو اختبار إحصائي رسمي نستخدمه لرفض أو الفشل في رفض فرضية إحصائية. لإجراء اختبار الفرضيات، نحصل على عينة عشوائية من المجتمع ونحدد ما إذا كان من المحتمل أن تكون البيانات الموجودة في العينة قد حدثت، بالنظر إلى أن الفرضية الصفرية صحيحة بالفعل.
إذا كانت بيانات العينة غير محتملة بدرجة كافية في ظل هذه الفرضية، فيمكننا رفض فرضية العدم ونستنتج وجود تأثير.
الطريقة التي نحدد بها ما إذا كانت بيانات العينة “غير محتملة بدرجة كافية” بافتراض أن الصفر صحيح هي تعيين مستوى أهمية معين (يتم اختياره عادةً ليكون 0.01 أو 0.05 أو 0.10)، ثم التحقق مما إذا كانت القيمة p لاختبار الفرضية أقل من هذا المستوى من الأهمية.
إذا كانت القيمة p أقل من مستوى الأهمية، فإننا نقول أن النتائج ذات دلالة إحصائية . إنه يعني فقط وجود تأثير معين، لكنه لا يعني بالضرورة أن هذا التأثير عملي بالفعل في العالم الحقيقي. وقد تكون النتائج ذات دلالة إحصائية دون أن تكون ذات دلالة عملية .
ذات صلة: شرح القيم P والأهمية الإحصائية
أهمية عملية
من الممكن أن يؤدي اختبار الفرضيات إلى نتائج ذات دلالة إحصائية، على الرغم من صغر حجم التأثير. هناك طريقتان رئيسيتان يمكن من خلالهما لأحجام التأثير الصغيرة أن تنتج قيم p منخفضة (وبالتالي ذات دلالة إحصائية):
1. تباين البيانات التي تم أخذ عينات منها منخفض جدًا. عندما تكون بيانات العينة الخاصة بك ذات تباين منخفض، يكون اختبار الفرضيات قادرًا على إنتاج تقديرات أكثر دقة لتأثير السكان، مما يسمح للاختبار باكتشاف التأثيرات الصغيرة حتى.
على سبيل المثال، لنفترض أننا نريد إجراء اختبار t مستقل مكون من عينتين على العينتين التاليتين اللتين تعرضان درجات اختبار 20 طالبًا من مدرستين مختلفتين لتحديد ما إذا كان متوسط درجات الاختبار يختلف بشكل كبير بين المدارس:
sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86 sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86
متوسط العينة 1 هو 85.55 ومتوسط العينة 2 هو 86.40 . عندما نقوم بإجراء اختبار t مستقل لعينتين، يتبين أن إحصائية الاختبار هي -5.3065 والقيمة p المقابلة هي <0.0001 . الفرق بين نتائج الاختبار ذو دلالة إحصائية.
ويبلغ الفرق بين متوسط درجات الاختبار لهاتين العينتين 0.85 فقط، إلا أن التباين المنخفض في درجات الاختبار لكل مدرسة يؤدي إلى نتيجة ذات دلالة إحصائية. لاحظ أن الانحراف المعياري للدرجات هو 0.51 للعينة 1 و 0.50 للعينة 2.
هذا التباين المنخفض هو ما سمح لاختبار الفرضية باكتشاف الفرق البسيط بين الدرجات والسماح للاختلافات بأن تكون ذات دلالة إحصائية.
السبب الأساسي الذي يجعل التباين المنخفض يمكن أن يؤدي إلى استنتاجات ذات دلالة إحصائية هو أن إحصائية اختبار t لاختبار t المستقل المكون من عينتين يتم حسابها على النحو التالي:
إحصائية الاختبار t = [ ( x 1 – x 2 ) – d ] / (√ ق 2 1 / ن 1 + ق 2 2 / ن 2 )
حيث تشير s 2 1 و s 2 2 إلى تباين العينة للعينة 1 والعينة 2 على التوالي. لاحظ أنه عندما يكون هذان الرقمان صغيرين، يكون المقام الصحيح لإحصائيات اختبار t صغيرًا.
وعندما تقسم على عدد صغير، تحصل على عدد كبير. وهذا يعني أن إحصائيات اختبار t ستكون كبيرة وأن قيمة p المقابلة ستكون صغيرة، مما يؤدي إلى نتائج ذات دلالة إحصائية.
2. حجم العينة كبير جدًا. كلما زاد حجم العينة، زادت القوة الإحصائية لاختبار الفرضيات، مما يسمح له باكتشاف حتى التأثيرات الصغيرة. وهذا يمكن أن يؤدي إلى نتائج ذات دلالة إحصائية، على الرغم من التأثيرات الصغيرة التي قد لا يكون لها أي أهمية عملية.
على سبيل المثال، لنفترض أننا نريد إجراء اختبار t مستقل مكون من عينتين على العينتين التاليتين اللتين تعرضان درجات اختبار 20 طالبًا من مدرستين مختلفتين لتحديد ما إذا كان متوسط درجات الاختبار يختلف بشكل كبير بين المدارس:
Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93 Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90
إذا قمنا بإنشاء مخطط مربع لكل عينة لعرض توزيع الدرجات، يمكننا أن نرى أنها تبدو متشابهة جدًا:
متوسط العينة 1 هو 90.65 ومتوسط العينة 2 هو 90.75 . الانحراف المعياري للعينة 1 هو 2.77 والانحراف المعياري للعينة 2 هو 2.78 . عندما نقوم بإجراء اختبار t مستقل لعينتين، يتبين أن إحصائية الاختبار هي -0.113 والقيمة p المقابلة هي 0.91 . الفرق بين متوسط درجات الاختبار ليس له دلالة إحصائية.
ومع ذلك، فكر فيما إذا كانت أحجام العينات في العينتين 200 . في هذه الحالة، سيكشف اختبار t مستقل مكون من عينتين أن إحصائية الاختبار هي -1.97 والقيمة p المقابلة أقل بقليل من 0.05 . الفرق بين متوسط درجات الاختبار له دلالة إحصائية.
السبب الكامن وراء أن أحجام العينات الكبيرة يمكن أن تؤدي إلى استنتاجات ذات دلالة إحصائية يعود مرة أخرى إلى إحصائية اختبار t لاختبار t المستقل المكون من عينتين:
إحصائية الاختبار t = [ ( x 1 – x 2 ) – d ] / (√ ق 2 1 / ن 1 + ق 2 2 / ن 2 )
لاحظ أنه عندما يكون n 1 و n 2 صغيرين، يكون المقام الصحيح لإحصائيات اختبار t صغيرًا. وعندما تقسم على عدد صغير، تحصل على عدد كبير. وهذا يعني أن إحصائيات اختبار t ستكون كبيرة وأن قيمة p المقابلة ستكون صغيرة، مما يؤدي إلى نتائج ذات دلالة إحصائية.
استخدم الخبرة الموضوعية لتقييم الأهمية العملية
لتحديد ما إذا كانت النتيجة ذات الدلالة الإحصائية من اختبار الفرضية ذات معنى عمليًا، غالبًا ما تكون الخبرة في الموضوع ضرورية.
في الأمثلة السابقة، عندما كنا نختبر الاختلافات بين درجات الاختبار من مدرستين، سيكون من المفيد أن يكون لدينا خبرة شخص يعمل في المدارس أو الذي يدير هذه الأنواع من الاختبارات لمساعدتنا في تحديد ما إذا كان متوسط الفرق 1 النقطة موجودة أم لا له آثار عملية.
على سبيل المثال، قد يكون متوسط الفرق بمقدار نقطة واحدة ذا دلالة إحصائية عند مستوى ألفا = 0.05، ولكن هل يعني ذلك أن المدرسة التي حصلت على أقل الدرجات يجب أن تتبنى البرنامج الذي تستخدمه المدرسة الحاصلة على أعلى الدرجات؟ أم أنها ستتطلب الكثير من التكاليف الإدارية وسيكون تنفيذها مكلفًا جدًا/سريعًا جدًا؟
إن مجرد وجود فرق ذي دلالة إحصائية في درجات الاختبار بين مدرستين لا يعني أن حجم تأثير الفرق كبير بما يكفي لإحداث نوع من التغيير في نظام التعليم.
استخدام فترات الثقة لتقييم الأهمية العملية
أداة أخرى مفيدة لتحديد الأهمية العملية هي فاصل الثقة . يمنحنا فاصل الثقة مجموعة من القيم التي من المحتمل أن تقع ضمنها المعلمة السكانية الحقيقية.
على سبيل المثال، لنعد إلى مثال مقارنة الفرق في درجات الاختبار بين مدرستين. قد يعلن مدير المدرسة أن متوسط الفارق في الدرجات لا يقل عن 5 نقاط ضروري للمدرسة لتبني برنامج جديد.
في إحدى الدراسات، يمكننا أن نرى أن متوسط الفرق بين درجات الاختبار هو 8 نقاط. ومع ذلك، يمكن أن يكون فاصل الثقة حول هذا المتوسط [4، 12]، مما يشير إلى أن 4 يمكن أن يكون الفرق الحقيقي بين متوسط نتائج الاختبار. في هذه الحالة، يمكن للمدير أن يستنتج أن المدرسة لن تغير البرنامج لأن فترة الثقة تشير إلى أن الفرق الحقيقي يمكن أن يكون أقل من 5.
ومع ذلك، في دراسة أخرى يمكننا أن نرى أن متوسط الفرق بين نتائج الاختبار هو مرة أخرى 8 نقاط، ولكن يمكن أن يكون فاصل الثقة حول المتوسط [6، 10]. وبما أن هذه الفترة لا تحتوي على 5 ، فمن المرجح أن يستنتج المدير أن الفرق الحقيقي بين درجات الاختبار أكبر من 5 وبالتالي يقرر أنه من المنطقي تعديل البرنامج.
خاتمة
وفي الختام، إليك ما تعلمناه:
- تشير الأهمية الإحصائية فقط إلى ما إذا كان هناك تأثير يعتمد على مستوى معين من الأهمية.
- والأهمية العملية هي ما إذا كان لهذا التأثير آثار عملية في العالم الحقيقي أم لا.
- نحن نستخدم التحليلات الإحصائية لتحديد الأهمية الإحصائية وخبرة المجال لتقييم الأهمية العملية.
- يمكن أن تنتج أحجام التأثير الصغيرة قيمًا p صغيرة عندما (1) يكون تباين بيانات العينة صغيرًا جدًا وعندما يكون (2) حجم العينة كبيرًا جدًا.
- من خلال تحديد الحد الأدنى لحجم التأثير قبل إجراء اختبار الفرضية، يمكننا تقييم ما إذا كانت نتيجة اختبار الفرضية (حتى لو كانت ذات دلالة إحصائية) عملية بالفعل في العالم الحقيقي.
- يمكن أن تكون فترات الثقة مفيدة في تحديد الأهمية العملية. إذا لم يكن الحد الأدنى لحجم التأثير ضمن فترة الثقة، فقد تكون النتائج ذات أهمية عملية.