Как интерпретировать диагностические графики в r


Модели линейной регрессии используются для описания взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Однако после того, как мы подогнали регрессионную модель, было бы неплохо также создать диагностические графики для анализа остатков модели и убедиться, что линейная модель подходит для использования с конкретными данными, с которыми мы работаем.

В этом руководстве объясняется, как создавать и интерпретировать диагностические графики для заданной модели регрессии в R.

Пример. Создание и интерпретация диагностических графиков в R

Предположим, мы подбираем простую модель линейной регрессии, используя «ученые часы», чтобы предсказать «экзаменационную оценку» учащихся в определенном классе:

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6),
                 score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) 

#fit linear regression model
model = lm(score ~ hours, data=df)

Мы можем использовать командуplot() для создания четырех диагностических графиков для этой модели регрессии:

 #produce diagnostic plots for regression model
plot(model)

диагностические графики в R

Диагностическая диаграмма №1: Остатки по сравнению с График кредитного плеча

Этот график используется для выявления влиятельных наблюдений. Если какие-либо точки на этом графике выходят за пределы расстояния Кука (пунктирные линии), то это важное наблюдение.

построение графиков остатков и кредитного плеча в R

В нашем примере мы видим, что наблюдение № 10 ближе всего к пределу расстояния Кука, но не выходит за пределы пунктирной линии. Это означает, что в нашем наборе данных нет слишком влиятельных точек.

Диагностический график № 2: График масштаба и местоположения

Этот график используется для проверки предположения о равенстве дисперсии (также называемой «гомоскедастичностью») остатков нашей регрессионной модели. Если красная линия на графике примерно горизонтальна, то предположение о равной дисперсии, вероятно, выполнено.

построено в масштабе и расположении в R

В нашем примере мы видим, что красная линия на графике не совсем горизонтальна, но ни в одной точке она не отклоняется слишком сильно. Вероятно, мы утверждаем, что предположение о равной дисперсии в этом случае не нарушается.

Связанный: Понимание гетероскедастичности в регрессионном анализе

Диагностическая кривая № 3: нормальная кривая QQ

Этот график используется для определения нормального распределения остатков регрессионной модели. Если точки на этом графике лежат примерно вдоль прямой диагональной линии, то можно считать, что остатки распределены нормально.

В нашем примере мы видим, что точки лежат примерно вдоль диагональной прямой. Наблюдения №10 и №8 немного отклоняются от линии на концах, но недостаточно, чтобы утверждать, что остатки не распределены нормально.

Диагностический график № 4: Остатки по сравнению с Скорректированный сюжет

Этот график используется для определения того, демонстрируют ли остатки нелинейные закономерности. Если красная линия в центре графика примерно горизонтальна, мы можем предположить, что остатки следуют линейному шаблону.

В нашем примере мы видим, что красная линия отклоняется от идеальной горизонтальной линии, но незначительно. Мы, вероятно, заявляем, что остатки имеют примерно линейный характер и что для этого набора данных подходит модель линейной регрессии.

Дополнительные ресурсы

Четыре предположения линейной регрессии
Что такое остатки в статистике?
Как создать остаточный график в R
Как интерпретировать масштаб и график местоположения

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *