شرح القيم p والأهمية الإحصائية
في الإحصاء، تُستخدم القيم p بشكل شائع في اختبار الفرضيات لاختبارات t، واختبارات مربع كاي، وتحليل الانحدار، وتحليل التباين (ANOVAs)، والعديد من الطرق الإحصائية الأخرى.
على الرغم من أنها شائعة جدًا، إلا أن الأشخاص غالبًا ما يفسرون القيم الاحتمالية بشكل غير صحيح، مما قد يؤدي إلى أخطاء عند تفسير نتائج التحليل أو الدراسة.
تشرح هذه المقالة كيفية فهم وتفسير القيم الاحتمالية بطريقة واضحة وعملية.
اختبار الفرضيات
لفهم القيم الاحتمالية، نحتاج أولاً إلى فهم مفهوم اختبار الفرضيات .
فرضية الاختبار هي اختبار إحصائي رسمي نستخدمه لرفض الفرضية أو الفشل في رفضها. على سبيل المثال، قد نفترض أن الدواء أو الطريقة أو الإجراء الجديد له مزايا معينة مقارنة بالعقار أو الطريقة أو الإجراء الحالي.
لاختبار ذلك، يمكننا إجراء اختبار الفرضية حيث نستخدم فرضية العدم والبديلة:
فرضية العدم – لا يوجد أي تأثير أو فرق بين الطريقة الجديدة والطريقة القديمة.
الفرضية البديلة – هناك تأثير أو اختلاف بين الطريقة الجديدة والطريقة القديمة.
تشير القيمة p إلى مدى مصداقية الفرضية الصفرية، في ضوء بيانات العينة. على وجه التحديد، بافتراض أن فرضية العدم صحيحة، فإن القيمة p تخبرنا باحتمالية الحصول على تأثير كبير على الأقل مثل التأثير الذي لاحظناه بالفعل في بيانات العينة.
إذا كانت القيمة p لاختبار الفرضية منخفضة بدرجة كافية، فيمكننا رفض فرضية العدم. على وجه التحديد، عندما نقوم بإجراء اختبار الفرضيات، نحتاج إلى اختيار مستوى الأهمية من البداية. الاختيارات الشائعة لمستويات الأهمية هي 0.01 و0.05 و0.10.
إذا كانت القيم p أقل من مستوى الأهمية لدينا، فيمكننا رفض فرضية العدم.
بخلاف ذلك، إذا كانت القيمة p مساوية أو أكبر من مستوى الأهمية لدينا، فإننا نفشل في رفض فرضية العدم.
كيفية تفسير قيمة P
التعريف الكلاسيكي للقيمة p هو:
القيمة p هي احتمالية مراقبة عينة إحصائية تكون على الأقل متطرفة مثل إحصائية العينة الخاصة بك، بشرط أن تكون فرضية العدم صحيحة.
على سبيل المثال، لنفترض أن أحد المصانع يدعي أنه ينتج إطارات يبلغ متوسط وزنها 200 رطل. يفترض أحد المدققين أن متوسط الوزن الفعلي للإطارات المنتجة في هذا المصنع يختلف بمقدار 200 رطل. لذلك أجرى اختبارًا فرضيًا ووجد أن القيمة p للاختبار هي 0.04. إليك كيفية تفسير هذه القيمة p:
إذا كان المصنع ينتج بالفعل إطارات بمتوسط وزن 200 رطل، فإن 4% من جميع عمليات التدقيق ستحقق التأثير الملحوظ في العينة، أو أكثر، بسبب خطأ عشوائي في أخذ العينات. وهذا يخبرنا أن الحصول على بيانات العينة التي حصل عليها المدقق سيكون نادرًا جدًا إذا كان المصنع ينتج بالفعل إطارات يبلغ متوسط وزنها 200 رطل.
اعتمادًا على مستوى الأهمية المستخدم في اختبار الفرضية هذا، من المحتمل أن يرفض المدقق الفرضية الصفرية القائلة بأن متوسط الوزن الفعلي للإطارات المنتجة في هذا المصنع يبلغ بالفعل 200 رطل. عينات البيانات التي حصل عليها أثناء التدقيق لا تتفق بشكل كبير مع فرضية العدم.
كيف لا تفسر قيمة P
أكبر مفهوم خاطئ حول القيم الاحتمالية هو أنها تعادل احتمال ارتكاب خطأ عن طريق رفض فرضية العدم الحقيقية (يُسمى الخطأ من النوع الأول).
هناك سببان رئيسيان لعدم مطابقة القيم الاحتمالية لمعدل الخطأ:
1. يتم حساب القيم P على أساس افتراض صحة الفرضية الصفرية وأن الفرق بين بيانات العينة والفرضية الصفرية يرجع ببساطة إلى الصدفة. لذلك لا يمكن للقيم الاحتمالية أن تخبرك باحتمالية أن تكون القيمة الصفرية صحيحة أو خاطئة لأنها صحيحة بنسبة 100% من منظور الحسابات.
2. على الرغم من أن القيمة الاحتمالية المنخفضة تشير إلى أن بيانات العينة الخاصة بك غير محتملة على افتراض أن الصفر صحيح، إلا أن القيمة الاحتمالية لا تزال غير قادرة على إخبارك بأي من الحالات التالية الأكثر احتمالية:
- القيمة الفارغة خاطئة
- القيمة صفر صحيحة لكنك حصلت على عينة غريبة
بالمقارنة مع المثال السابق، إليك طريقة صحيحة وغير صحيحة لتفسير القيمة p:
- التفسير الصحيح: بافتراض أن المصنع ينتج إطارات بمتوسط وزن 200 رطل، فسوف تحصل على الفرق الملحوظ الذي حصلت عليه في عينتك أو فرق أكثر تطرفًا في 4% من عمليات التدقيق بسبب أخذ العينات العشوائية.
- تفسير غير صحيح: إذا رفضت فرضية العدم، فهناك احتمال بنسبة 4% أنك ترتكب خطأ.
أمثلة على تفسير القيم P
توضح الأمثلة التالية الطرق الصحيحة لتفسير القيم الاحتمالية في سياق اختبار الفرضيات.
مثال 1
تدعي إحدى شركات الهاتف أن 90% من عملائها راضون عن الخدمة التي تقدمها. ولاختبار هذا الادعاء، قام باحث مستقل بجمع عينة عشوائية بسيطة من 200 عميل وسألهم عما إذا كانوا راضين عن خدمتهم، فأجاب 85% منهم بنعم. تم العثور على القيمة p المرتبطة بعينة البيانات هذه وهي 0.018.
التفسير الصحيح للقيمة p: بافتراض أن 90% من العملاء راضون فعلياً عن خدمتهم، سيحصل الباحث على الفارق الملحوظ الذي حصل عليه في عينته أو فرق أكثر تطرفاً في 1.8% من عمليات التدقيق بسبب أخذ العينات العشوائية خطأ. .
مثال 2
شركة تخترع بطارية جديدة للهواتف. تدعي الشركة أن هذه البطارية الجديدة ستعمل لمدة 10 دقائق على الأقل أطول من البطارية القديمة. ولاختبار هذا الادعاء، أخذ الباحث عينة عشوائية بسيطة مكونة من 80 بطارية جديدة و80 بطارية قديمة. تدوم البطاريات الجديدة في المتوسط 120 دقيقة مع انحراف معياري قدره 12 دقيقة، وتعمل البطاريات القديمة في المتوسط 115 دقيقة مع انحراف معياري قدره 15 دقيقة. القيمة p الناتجة عن اختبار الفرق في متوسط عدد السكان هي 0.011.
التفسير الصحيح للقيمة p: بافتراض أن البطارية الجديدة تعمل لنفس المدة أو أقل من البطارية القديمة، فإن الباحث سيحصل على الفرق الملحوظ أو فرق أكثر تطرفًا في 1.1% من الدراسات بسبب خطأ العينات العشوائية.