كيفية تشغيل اختبار grubbs في r
اختبار Grubbs هو اختبار إحصائي يمكن استخدامه لتحديد وجود القيم المتطرفة في مجموعة البيانات.
لاستخدام هذا الاختبار، يجب أن يكون لمجموعة البياناتتوزيع طبيعي تقريبًا وتحتوي على 7 ملاحظات على الأقل.
يشرح هذا البرنامج التعليمي كيفية إجراء اختبار Grubbs في R لاكتشاف القيم المتطرفة في مجموعة البيانات.
مثال: اختبار جروبس في R
لإجراء اختبار Grubbs في لغة R، يمكننا استخدام الدالة grubbs.test() من حزمة Outliers ، والتي تستخدم الصيغة التالية:
grubbs.test(x، النوع = 10، العكس = FALSE، الوجهين = FALSE)
ذهب:
- x: متجه رقمي لقيم البيانات
- النوع: 10 = اختبار إذا كانت القيمة القصوى هي قيمة متطرفة، 11 = اختبار إذا كانت القيم الدنيا والحد الأقصى هي قيم متطرفة، 20 = اختبار إذا كان هناك قيمتان متطرفتان على الذيل
- العكس: المنطق الذي يشير إلى ما إذا كنت تريد التحقق ليس من القيمة ذات الاختلاف الأكبر عن المتوسط، ولكن العكس (الأدنى، إذا كان الأكثر إثارة للريبة هو الأعلى، وما إلى ذلك)
- ثنائي: قيمة منطقية تشير إلى ما إذا كان يجب عليك التعامل مع الاختبار على أنه ثنائي أم لا
يستخدم هذا الاختبار الفرضيتين التاليتين:
H 0 (فرضية العدم): لا توجد قيم متطرفة في البيانات.
HA (فرضية بديلة): هناك قيمة متطرفة في البيانات.
يوضح المثال التالي كيفية إجراء اختبار Grubbs لتحديد ما إذا كانت القيمة القصوى في مجموعة البيانات هي قيمة متطرفة:
#load Outliers package library(Outliers) #createdata data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40) #perform Grubbs' Test to see if '40' is an outlier grubbs.test(data) # Grubbs test for one outlier # #data:data #G = 2.65990, U = 0.55935, p-value = 0.02398 #alternative hypothesis: highest value 40 is an outlier
إحصائيات الاختبار هي G = 2.65990 والقيمة p المقابلة هي p = 0.02398 . وبما أن هذه القيمة أقل من 0.05، فسوف نرفض فرضية العدم ونستنتج أن القيمة القصوى البالغة 40 هي قيمة متطرفة.
إذا أردنا بدلاً من ذلك اختبار ما إذا كانت القيمة الأدنى لـ “5” قيمة شاذة، فيمكننا استخدام الأمر المعاكس=TRUE :
#perform Grubbs' Test to see if '5' is an outlier grubbs.test(data, opposite= TRUE ) # Grubbs test for one outlier # #data:data #G = 1.4879, U = 0.8621, p-value = 1 #alternative hypothesis: lowest value 5 is an outlier
إحصائيات الاختبار هي G = 1.4879 والقيمة p المقابلة هي p = 1 . وبما أن هذه القيمة لا تقل عن 0.05، فقد فشلنا في رفض الفرضية الصفرية. ليس لدينا أدلة كافية لنقول أن الحد الأدنى لقيمة “5” هو قيمة متطرفة.
أخيرًا، لنفترض أن لدينا قيمتين كبيرتين في أحد طرفي مجموعة البيانات: 40 و42. لاختبار ما إذا كانت هاتان القيمتان قيمتين متطرفتين، يمكننا إجراء اختبار Grubbs وتحديد النوع=20 :
#create dataset with two large values at one end: 40 and 42 data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) #perform Grubbs' Test to see if both 40 and 42 are outliers grubbs.test(data, type=20) # Grubbs test for two outliers # #data: data #U = 0.38111, p-value = 0.01195 #alternative hypothesis: highest values 40, 42 are outliers
القيمة p للاختبار هي 0.01195 . وبما أن هذه القيمة أقل من 0.05، فيمكننا رفض فرضية العدم ونستنتج أن لدينا أدلة كافية للقول بأن القيمتين 40 و42 قيمتان متطرفتان.
كيفية التعامل مع القيم المتطرفة
إذا حدد اختبار Grubbs قيمة متطرفة في مجموعة البيانات الخاصة بك، فلديك عدة خيارات:
1. تحقق مرة أخرى من أن القيمة ليست خطأ مطبعي أو خطأ في إدخال البيانات. في بعض الأحيان تكون القيم التي تظهر كقيم متطرفة في مجموعات البيانات مجرد أخطاء مطبعية يقوم بها فرد أثناء إدخال البيانات. ارجع وتأكد من إدخال القيمة بشكل صحيح قبل اتخاذ المزيد من القرارات.
2. قم بتعيين قيمة جديدة للقيمة المتطرفة . إذا تبين أن القيمة المتطرفة هي نتيجة خطأ مطبعي أو خطأ في إدخال البيانات، فيمكنك أن تقرر تعيين قيمة جديدة لها، مثل المتوسط أو الوسيط لمجموعة البيانات.
3. قم بإزالة القيمة المتطرفة. إذا كانت القيمة قيمة متطرفة حقًا، فيمكنك اختيار إزالتها إذا كان لها تأثير كبير على تحليلك الإجمالي.