Как создавать и интерпретировать парные графики в r
Парный график — это матрица диаграммы рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.
К счастью, в R легко создать график пар с помощью функции пары() . В этом руководстве представлено несколько примеров практического использования этой функции.
Пример 1: парный график всех переменных
Следующий код демонстрирует, как создать график базовой пары для всех переменных во фрейме данных в R:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
Способ интерпретации матрицы следующий:
- Имена переменных отображаются вдоль диагональных прямоугольников.
- Во всех остальных полях отображается диаграмма рассеяния взаимосвязей между каждой парной комбинацией переменных. Например, область в правом верхнем углу матрицы отображает диаграмму рассеяния значений для var1 и var3 . В среднем левом поле отображается диаграмма рассеяния значений для var1 и var2 и так далее.
Этот единственный график дает нам представление о взаимосвязи между каждой парой переменных в нашем наборе данных. Например, var1 и var2, по-видимому, положительно коррелируют, тогда как var1 и var3 имеют небольшую корреляцию или вообще не имеют ее.
Пример 2. Построение графика пар конкретных переменных
Следующий код демонстрирует, как создать график базовой пары только для первых двух переменных в наборе данных:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Пример 3. Изменение эстетики парного графика
Следующий код демонстрирует, как изменить внешний вид парного графика, включая заголовок, цвет и метки:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Пример 4: Получение корреляций с помощью ggpair
Вы также можете получить коэффициент корреляции Пирсона между переменными, используя функцию ggpairs() из библиотеки GGally. Следующий код демонстрирует, как использовать эту функцию:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
Способ интерпретации этой матрицы следующий:
- Имена переменных отображаются по внешним краям матрицы.
- В прямоугольниках вдоль диагоналей отображается график плотности для каждой переменной.
- В полях в левом нижнем углу отображается диаграмма рассеяния между каждой переменной.
- В полях в правом верхнем углу отображается коэффициент корреляции Пирсона между каждой переменной. Например, корреляция между var1 и var2 равна 0,425 .
Преимущество использования ggpairs() по сравнению с базовой функцией R Pairs() заключается в том, что вы можете получить больше информации о переменных. В частности, вы можете увидеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.
Полную документацию по функции ggpairs() вы можете найти здесь .