Як створити та інтерпретувати парні діаграми в r


Парний графік — це матриця діаграми розсіювання, яка дозволяє зрозуміти попарний зв’язок між різними змінними в наборі даних.

На щастя, легко створити діаграму пар у R за допомогою функції pairs() . Цей підручник містить кілька прикладів практичного використання цієї функції.

Приклад 1: парний графік усіх змінних

Наступний код демонструє, як створити діаграму пари основ для всіх змінних у кадрі даних у R:

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df) 

Спосіб інтерпретації матриці такий:

  • Назви змінних відображаються вздовж діагональних рамок.
  • Усі інші поля відображають діаграму розсіювання зв’язку між кожною попарною комбінацією змінних. Наприклад, область у верхньому правому куті матриці відображає діаграму розсіювання значень для var1 і var3 . У середньому лівому полі відображається діаграма розсіювання значень для змінних1 і змінних2 тощо.

Цей єдиний графік дає нам уявлення про зв’язок між кожною парою змінних у нашому наборі даних. Наприклад, змінна 1 і змінна 2 виявляються позитивно корельованими, тоді як змінна 1 і змінна 3 мають незначну кореляцію або взагалі її не мають.

Приклад 2: Побудова пар певних змінних

Наведений нижче код демонструє, як створити діаграму пари основ лише для перших двох змінних у наборі даних:

 #create pairs plot for var1 and var2 only
even(df[, 1:2]) 

Побудова певних пар змінних у R

Приклад 3: Змініть естетику парного сюжету

Наведений нижче код демонструє, як змінити естетику графіка пар, включаючи заголовок, колір і мітки:

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title 

Побудова настроюваних пар у R

Приклад 4: Отримання кореляцій з ggpairs

Ви також можете отримати коефіцієнт кореляції Пірсона між змінними за допомогою функції ggpairs() із бібліотеки GGally. Наступний код демонструє, як використовувати цю функцію:

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

функція ggpairs у прикладі R

Спосіб інтерпретації цієї матриці наступний:

  • Імена змінних відображаються на зовнішніх краях матриці.
  • Коробки вздовж діагоналей відображають графік щільності для кожної змінної.
  • Поля в нижньому лівому куті відображають діаграму розсіювання між кожною змінною.
  • Поля у верхньому правому куті відображають коефіцієнт кореляції Пірсона між кожною змінною. Наприклад, кореляція між var1 і var2 становить 0,425 .

Перевага використання ggpairs() над основною функцією R pairs() полягає в тому, що ви можете отримати більше інформації про змінні. Зокрема, ви можете побачити коефіцієнт кореляції між кожною попарною комбінацією змінних, а також графік щільності для кожної окремої змінної.

Ви можете знайти повну документацію для функції ggpairs() тут .

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *