كيفية إنشاء وتفسير مؤامرة qq في r
مخطط QQ ، وهو اختصار لعبارة “Quantile-Quantile”، هو نوع من المخططات التي يمكننا استخدامها لتحديد ما إذا كانت مجموعة البيانات من المحتمل أن تأتي من توزيع نظري أم لا.
تفترض العديد من الاختبارات الإحصائية أن مجموعة البيانات تتبع التوزيع الطبيعي، وغالبًا ما يتم استخدام مخطط QQ لتقييم ما إذا كان هذا الافتراض قد تم استيفاءه أم لا.
على الرغم من أن مخطط QQ ليس اختبارًا إحصائيًا رسميًا، إلا أنه يوفر طريقة بسيطة للتحقق بصريًا مما إذا كانت مجموعة البيانات تتبع التوزيع الطبيعي، وإذا لم يكن الأمر كذلك، فكيف يتم انتهاك هذا الافتراض ونقاط البيانات التي يحتمل أن تكون مصدر هذا الانتهاك.
يمكننا إنشاء مخطط QQ من خلال رسم مجموعتين من الكميات مقابل بعضها البعض. إذا كانت مجموعتي الكميات تأتي من نفس التوزيع، فيجب أن تشكل النقاط الموجودة على المخطط خطًا قطريًا مستقيمًا تقريبًا.
تمثل الكميات نقاطًا في مجموعة بيانات يقع أسفلها جزء معين من البيانات. على سبيل المثال، يمثل الكم 0.9 النقطة التي تقع تحتها 90% من البيانات. ويمثل الجزء 0.5 النقطة التي يقع تحتها 50% من البيانات، وهكذا.
تحدد مخططات QQ كميات عينات البيانات الخاصة بك وتقارنها بكميات التوزيع النظري. في معظم الحالات يتم استخدام التوزيع الطبيعي، ولكن يمكن بالفعل إنشاء مخطط QQ لأي توزيع نظري.
إذا كانت نقاط البيانات تقع على طول خط قطري مستقيم في مخطط QQ، فمن المرجح أن تتبع مجموعة البيانات التوزيع الطبيعي.
كيفية إنشاء مؤامرة QQ في R
يمكننا بسهولة إنشاء مخطط QQ للتحقق مما إذا كانت مجموعة البيانات تتبع التوزيع الطبيعي باستخدام وظيفة qqnorm() المضمنة.
على سبيل المثال، يقوم التعليمة البرمجية التالية بإنشاء متجه من 100 قيمة عشوائية تتبع التوزيع الطبيعي وإنشاء مخطط QQ لمجموعة البيانات هذه للتحقق من أنها تتبع التوزيع الطبيعي بالفعل:
#make this example reproducible set.seed(11) #generate vector of 100 values that follows a normal distribution data <- rnorm(100) #create QQ plot to compare this dataset to a theoretical normal distribution qqnorm(data)
لتسهيل معرفة ما إذا كانت البيانات تتبع خطًا مستقيمًا، يمكننا استخدام الدالة qqline() :
#create QQ plot qqnorm(data) #add straight diagonal line to plot qqline(data)
يمكننا أن نرى أن نقاط البيانات القريبة من الأطراف لا تتبع الخط المستقيم تمامًا، ولكن في معظم الأحيان تبدو بيانات العينة هذه موزعة بشكل طبيعي (كما ينبغي أن تكون منذ أن طلبنا من R إنشاء البيانات من التوزيع الطبيعي ). ).
بدلاً من ذلك، خذ بعين الاعتبار الكود التالي الذي يقوم بإنشاء متجه من 100 قيمة عشوائية تتبع توزيع جاما ويقوم بإنشاء مخطط QQ لهذه البيانات للتحقق مما إذا كانت تتبع التوزيع الطبيعي:
#make this example reproducible set.seed(11) #generate vector of 100 values that follows a gamma distribution data <- rgamma(100, 1) #create QQ plot to compare this dataset to a theoretical normal distribution qqnorm(data) qqline(data)
يمكننا أن نرى انحرافًا واضحًا عن الخط المستقيم في مخطط QQ هذا، مما يشير إلى أن مجموعة البيانات هذه على الأرجح لا تتبع التوزيع الطبيعي.
فكر في جزء آخر من التعليمات البرمجية الذي ينشئ متجهًا مكونًا من 100 قيمة عشوائية يتبع توزيع Chi-square مع 5 درجات من الحرية وينشئ مخطط QQ لهذه البيانات للتحقق مما إذا كانت تتبع التوزيع الطبيعي:
#make this example reproducible set.seed(11) #generate vector of 100 values that follows a Chi-Square distribution data <- rchisq(100, 5) #create QQ plot to compare this dataset to a theoretical normal distribution qqnorm(data) qqline(data)
مرة أخرى يمكننا أن نرى أن مجموعة البيانات هذه لا يبدو أنها تتبع التوزيع الطبيعي، خاصة بالقرب من الأطراف.
تغيير جماليات مؤامرة QQ في R
يمكننا تغيير بعض جماليات مخطط QQ في R، بما في ذلك العنوان وتسميات المحاور وألوان نقاط البيانات ولون الخط وعرض الخط.
يقوم التعليمة البرمجية التالية بتغيير العناوين وتسميات المحاور ولون نقاط الرسم:
#make this example reproducible set.seed(11) #generate vector of 100 values that follows a normal distribution data <- rnorm(100) #create QQ plot qqnorm(data, main = 'QQ Plot for Normality', xlab = 'Theoretical Dist', ylab = 'Sample dist', col = 'steelblue')
ثم يضيف التعليمة البرمجية التالية خطًا قطريًا مستقيمًا إلى المخطط بلون أحمر، وعرض خط 2 (lwd = 2، الافتراضي هو 1)، وخط متقطع (lty = 2، الافتراضي هو 1):
qqline(data, col = 'red', lwd = 2, lty = 2)
الملاحظات الفنية
ضع في اعتبارك أن مخطط QQ هو مجرد وسيلة للتحقق بصريًا مما إذا كانت مجموعة البيانات تتبع التوزيع النظري. لاختبار ما إذا كانت مجموعة البيانات تتبع توزيعًا معينًا بشكل رسمي أم لا، يمكن إجراء الاختبارات التالية (على افتراض أنك تقارن مجموعة البيانات الخاصة بك بالتوزيع الطبيعي):
اختبار أندرسون-دارلنج
اختبار شابيرو ويلك
اختبار كولموجوروف-سميرنوف