Как создавать и интерпретировать парные графики в r

К бенджамин андерсон 28 июля, 2023 Гид 0 комментариев

Парный график — это матрица диаграммы рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

К счастью, в R легко создать график пар с помощью функции пары() . В этом руководстве представлено несколько примеров практического использования этой функции.

Пример 1: парный график всех переменных

Следующий код демонстрирует, как создать график базовой пары для всех переменных во фрейме данных в R:

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df)

Способ интерпретации матрицы следующий:

Имена переменных отображаются вдоль диагональных прямоугольников.
Во всех остальных полях отображается диаграмма рассеяния взаимосвязей между каждой парной комбинацией переменных. Например, область в правом верхнем углу матрицы отображает диаграмму рассеяния значений для var1 и var3 . В среднем левом поле отображается диаграмма рассеяния значений для var1 и var2 и так далее.

Этот единственный график дает нам представление о взаимосвязи между каждой парой переменных в нашем наборе данных. Например, var1 и var2, по-видимому, положительно коррелируют, тогда как var1 и var3 имеют небольшую корреляцию или вообще не имеют ее.

Пример 2. Построение графика пар конкретных переменных

Следующий код демонстрирует, как создать график базовой пары только для первых двух переменных в наборе данных:

 #create pairs plot for var1 and var2 only
even(df[, 1:2])

Построение графика определенных пар переменных в R

Пример 3. Изменение эстетики парного графика

Следующий код демонстрирует, как изменить внешний вид парного графика, включая заголовок, цвет и метки:

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title

Построение пользовательских пар в R

Пример 4: Получение корреляций с помощью ggpair

Вы также можете получить коэффициент корреляции Пирсона между переменными, используя функцию ggpairs() из библиотеки GGally. Следующий код демонстрирует, как использовать эту функцию:

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df)

функция ggpairs в примере R

Способ интерпретации этой матрицы следующий:

Имена переменных отображаются по внешним краям матрицы.
В прямоугольниках вдоль диагоналей отображается график плотности для каждой переменной.
В полях в левом нижнем углу отображается диаграмма рассеяния между каждой переменной.
В полях в правом верхнем углу отображается коэффициент корреляции Пирсона между каждой переменной. Например, корреляция между var1 и var2 равна 0,425 .

Преимущество использования ggpairs() по сравнению с базовой функцией R Pairs() заключается в том, что вы можете получить больше информации о переменных. В частности, вы можете увидеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.

Полную документацию по функции ggpairs() вы можете найти здесь .

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше