كيفية تحديد نقاط البيانات المؤثرة باستخدام مسافة كوك

By دكتور بنيامين أندرسون قويروق‏دوغان 29, 2023 مرشد 0 Comments

يتم استخدام مسافة كوك ، التي يُشار إليها غالبًا بـ D _i ، في تحليل الانحدار لتحديد نقاط البيانات المؤثرة التي قد تؤثر سلبًا على نموذج الانحدار الخاص بك.

صيغة مسافة كوك هي:

د _i = (r _i ² / p*MSE) * (h _ii / (1-h _ii ) ² )

ذهب:

r _i هو i ^{البقايا}
p هو عدد المعاملات في نموذج الانحدار
MSE هو متوسط الخطأ المربع
hii _هي قيمة الرافعة ^{المالية}

على الرغم من أن الصيغة تبدو معقدة بعض الشيء، إلا أن الخبر السار هو أن معظم البرامج الإحصائية يمكنها حسابها لك بسهولة.

في الأساس، تقوم مسافة كوك بشيء واحد: فهي تقيس مدى تغير جميع القيم المجهزة للنموذج عند إزالة نقطة البيانات ⁱ .

تشير نقطة البيانات التي لها قيمة عالية لمسافة كوك إلى أنها تؤثر بشدة على القيم المجهزة. القاعدة العامة هي أن أي نقطة ذات مسافة كوك أكبر من 4/n ( حيث n هو العدد الإجمالي لنقاط البيانات ) تعتبر نقطة متطرفة.

ومن المهم ملاحظة أن مسافة كوك غالبًا ما تُستخدم لتحديد نقاط البيانات المؤثرة. فقط لأن نقطة البيانات مؤثرة لا يعني بالضرورة أنه يجب إزالتها. يجب عليك أولاً التحقق مما إذا كانت نقطة البيانات قد تم تسجيلها بشكل غير صحيح أو إذا كان هناك شيء غريب حول نقطة البيانات يمكن أن يشير إلى نتيجة مثيرة للاهتمام.

كيفية حساب مسافة كوك في R

يوضح المثال التالي كيفية حساب مسافة كوك في R.

أولاً، سنقوم بتحميل مكتبتين سنحتاجهما لهذا المثال:

 library(ggplot2)
library(gridExtra)

بعد ذلك، سنحدد إطارين للبيانات: أحدهما يحتوي على قيمتين متطرفتين والآخر بدون قيم متطرفة.

 #create data frame with no outliers
no_outliers <- data.frame(x = c(1, 2, 2, 3, 4, 5, 7, 3, 2, 12, 11, 15, 14, 17, 22),
                          y = c(22, 23, 24, 23, 19, 34, 35, 36, 36, 34, 32, 38, 41,
                                42, 44))

#create data frame with two outliers
outliers <- data.frame(x = c(1, 2, 2, 3, 4, 5, 7, 3, 2, 12, 11, 15, 14, 17, 22),
                       y = c( 190 , 23, 24, 23, 19, 34, 35, 36, 36, 34, 32, 38, 41,
                             42, 180 ))

بعد ذلك، سنقوم بإنشاء مخطط مبعثر لعرض إطاري البيانات جنبًا إلى جنب:

 #create scatterplot for data frame with no outliers
no_outliers_plot <- ggplot(data = no_outliers, aes(x = x, y = y)) +
  geom_point() +
  geom_smooth(method = lm) +
  ylim(0, 200) +
  ggtitle("No Outliers")

#create scatterplot for data frame with outliers
outliers_plot <- ggplot(data = outliers, aes(x = x, y = y)) +
  geom_point() +
  geom_smooth(method = lm) +
  ylim(0, 200) +
  ggtitle("With Outliers")

#plot the two scatterplots side by side
gridExtra::grid.arrange(no_outliers_plot, outliers_plot, ncol=2)

يمكننا أن نرى كيف تؤثر القيم المتطرفة سلبًا على ملاءمة خط الانحدار في الرسم البياني الثاني.

لتحديد النقاط المؤثرة في مجموعة البيانات الثانية، يمكننا حساب مسافة Cook لكل ملاحظة في مجموعة البيانات ثم رسم هذه المسافات لمعرفة الملاحظات التي تتجاوز العتبة التقليدية البالغة 4/n:

 #fit the linear regression model to the dataset with outliers
model <- lm(y ~ x, data = outliers)

#find Cook's distance for each observation in the dataset
cooksD <- cooks.distance(model)

# Plot Cook's Distance with a horizontal line at 4/n to see which observations
#exceed this threshold
n <- nrow(outliers)
plot(cooksD, main = "Cooks Distance for Influential Obs")
abline(h = 4/n, lty = 2, col = "steelblue") # add cutoff line

يمكننا أن نرى بوضوح أن الملاحظة الأولى والأخيرة في مجموعة البيانات تتجاوز عتبة 4/n. وبالتالي، يمكننا تحديد هاتين الملاحظتين على أنهما نقاط بيانات مؤثرة تؤثر سلبًا على نموذج الانحدار.

إذا أردنا إزالة جميع الملاحظات التي تتجاوز عتبة 4/n، فيمكننا القيام بذلك باستخدام الكود التالي:

 #identify influential points
influential_obs <- as.numeric(names(cooksD)[(cooksD > (4/n))])

#define new data frame with influential points removed
outliers_removed <- outliers[-influential_obs, ]

بعد ذلك يمكننا مقارنة مخططين مبعثرين: أحدهما يوضح خط الانحدار مع وجود نقاط التأثير والآخر يظهر خط الانحدار مع إزالة نقاط التأثير:

 #create scatterplot with outliers present
outliers_present <- ggplot(data = outliers, aes(x = x, y = y)) +
  geom_point() +
  geom_smooth(method = lm) +
  ylim(0, 200) +
  ggtitle("Outliers Present")

#create scatterplot with outliers removed
outliers_removed <- ggplot(data = outliers_removed, aes(x = x, y = y)) +
  geom_point() +
  geom_smooth(method = lm) +
  ylim(0, 200) +
  ggtitle("Outliers Removed")

#plot both scatterplots side by side
gridExtra::grid.arrange(outliers_present, outliers_removed, ncol = 2)

يمكننا أن نرى بوضوح مدى ملاءمة خط الانحدار للبيانات بمجرد إزالة نقطتي البيانات المؤثرتين.

الملاحظات الفنية

تتمتع معظم البرامج الإحصائية بالقدرة على حساب مسافة كوك بسهولة لكل ملاحظة في مجموعة البيانات.
ضع في اعتبارك أن مسافة كوك هي مجرد وسيلة لتحديد نقاط التأثير.
هناك طرق عديدة للتعامل مع النقاط المؤثرة، منها: إزالة هذه النقاط، أو استبدال هذه النقاط بقيمة مثل المتوسط أو الوسيط، أو ببساطة الاحتفاظ بالنقاط في النموذج مع أخذها في الاعتبار عند الإبلاغ عن نتائج الانحدار.

About Author

دكتور بنيامين أندرسون

مرحبًا، أنا بنجامين، أستاذ الإحصاء المتقاعد الذي تحول إلى مدرس متخصص في Statorials. بفضل خبرتي الواسعة في مجال الإحصاء، فأنا حريص على مشاركة معرفتي لتمكين الطلاب من خلال Statorials. تعرف أكثر

كيفية حساب مسافة كوك في R

الملاحظات الفنية

About Author

دكتور بنيامين أندرسون

Add a Comment