Як створити та інтерпретувати парні діаграми в r
Парний графік — це матриця діаграми розсіювання, яка дозволяє зрозуміти попарний зв’язок між різними змінними в наборі даних.
На щастя, легко створити діаграму пар у R за допомогою функції pairs() . Цей підручник містить кілька прикладів практичного використання цієї функції.
Приклад 1: парний графік усіх змінних
Наступний код демонструє, як створити діаграму пари основ для всіх змінних у кадрі даних у R:
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
Спосіб інтерпретації матриці такий:
- Назви змінних відображаються вздовж діагональних рамок.
- Усі інші поля відображають діаграму розсіювання зв’язку між кожною попарною комбінацією змінних. Наприклад, область у верхньому правому куті матриці відображає діаграму розсіювання значень для var1 і var3 . У середньому лівому полі відображається діаграма розсіювання значень для змінних1 і змінних2 тощо.
Цей єдиний графік дає нам уявлення про зв’язок між кожною парою змінних у нашому наборі даних. Наприклад, змінна 1 і змінна 2 виявляються позитивно корельованими, тоді як змінна 1 і змінна 3 мають незначну кореляцію або взагалі її не мають.
Приклад 2: Побудова пар певних змінних
Наведений нижче код демонструє, як створити діаграму пари основ лише для перших двох змінних у наборі даних:
#create pairs plot for var1 and var2 only
even(df[, 1:2])
Приклад 3: Змініть естетику парного сюжету
Наведений нижче код демонструє, як змінити естетику графіка пар, включаючи заголовок, колір і мітки:
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
Приклад 4: Отримання кореляцій з ggpairs
Ви також можете отримати коефіцієнт кореляції Пірсона між змінними за допомогою функції ggpairs() із бібліотеки GGally. Наступний код демонструє, як використовувати цю функцію:
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
Спосіб інтерпретації цієї матриці наступний:
- Імена змінних відображаються на зовнішніх краях матриці.
- Коробки вздовж діагоналей відображають графік щільності для кожної змінної.
- Поля в нижньому лівому куті відображають діаграму розсіювання між кожною змінною.
- Поля у верхньому правому куті відображають коефіцієнт кореляції Пірсона між кожною змінною. Наприклад, кореляція між var1 і var2 становить 0,425 .
Перевага використання ggpairs() над основною функцією R pairs() полягає в тому, що ви можете отримати більше інформації про змінні. Зокрема, ви можете побачити коефіцієнт кореляції між кожною попарною комбінацією змінних, а також графік щільності для кожної окремої змінної.
Ви можете знайти повну документацію для функції ggpairs() тут .