كيفية إنشاء رسم بياني للبقايا في r
أحد الافتراضات الرئيسية للانحدار الخطي هو أن البقايا يتم توزيعها بشكل طبيعي.
إحدى طرق التحقق من هذا الافتراض بصريًا هي إنشاء رسم بياني للبقايا وملاحظة ما إذا كان التوزيع يتبع “شكل الجرس” الذي يذكرنابالتوزيع الطبيعي أم لا.
يوفر هذا البرنامج التعليمي مثالاً خطوة بخطوة لكيفية إنشاء رسم بياني للمتبقيات لنموذج الانحدار في R.
الخطوة 1: إنشاء البيانات
أولاً، لنقم بإنشاء بعض البيانات المزيفة للعمل معها:
#make this example reproducible set.seed(0) #createdata x1 <- rnorm(n=100, 2, 1) x2 <- rnorm(100, 4, 3) y <- rnorm(100, 2, 3) data <- data.frame(x1, x2, y) #view first six rows of data head(data) x1 x2 y 1 3.262954 6.3455776 -1.1371530 2 1.673767 1.6696701 -0.6886338 3 3.329799 2.1520303 5.8081615 4 3.272429 4.1397409 3.7815228 5 2.414641 0.6088427 4.3269030 6 0.460050 5.7301563 6.6721111
الخطوة 2: تناسب نموذج الانحدار
بعد ذلك، سنلائم نموذج الانحدار الخطي المتعدد للبيانات:
#fit multiple linear regression model
model <- lm(y ~ x1 + x2, data=data)
الخطوة 3: إنشاء رسم بياني للبقايا
أخيرًا، سوف نستخدم حزمة التصور ggplot لإنشاء رسم بياني لبقايا النموذج:
#load ggplot2
library (ggplot2)
#create histogram of residuals
ggplot(data = data, aes (x = model$residuals)) +
geom_histogram(fill = ' steelblue ', color = ' black ') +
labs(title = ' Histogram of Residuals ', x = ' Residuals ', y = ' Frequency ')
لاحظ أنه يمكننا أيضًا تحديد عدد الصناديق لوضع المخلفات فيها باستخدام وسيطة bin .
كلما كان عدد المربعات أقل، كلما كانت الأشرطة أوسع في الرسم البياني. على سبيل المثال، يمكننا تحديد 20 خانة :
#create histogram of residuals
ggplot(data = data, aes (x = model$residuals)) +
geom_histogram(bins = 20 , fill = ' steelblue ', color = ' black ') +
labs(title = ' Histogram of Residuals ', x = ' Residuals ', y = ' Frequency ')
أو يمكننا تحديد 10 صناديق :
#create histogram of residuals
ggplot(data = data, aes (x = model$residuals)) +
geom_histogram(bins = 10 , fill = ' steelblue ', color = ' black ') +
labs(title = ' Histogram of Residuals ', x = ' Residuals ', y = ' Frequency ')
بغض النظر عن عدد المربعات التي نحددها، يمكننا أن نرى أن البقايا يتم توزيعها بشكل طبيعي تقريبًا.
يمكننا أيضًا إجراء اختبار إحصائي رسمي مثل Shapiro-Wilk، أو Kolmogorov-Smirnov، أو Jarque-Bera لاختبار الحالة الطبيعية.
ومع ذلك، ضع في اعتبارك أن هذه الاختبارات حساسة لأحجام العينات الكبيرة – أي أنها غالبًا ما تستنتج أن المخلفات ليست طبيعية عندما يكون حجم العينة كبيرًا.
لهذا السبب، غالبًا ما يكون من الأسهل تقييم الحالة الطبيعية عن طريق إنشاء رسم بياني للبقايا.