Как создать матрицу диаграммы рассеяния в r (2 примера)


Матрица диаграммы рассеяния — это матрица диаграммы рассеяния, которая позволяет понять попарные отношения между различными переменными в наборе данных.

Существует два распространенных способа создания матрицы диаграммы рассеяния в R:

Метод 1: используйте базу R

 #create scatterplot matrix (pch=20 means to use a solid circle for points)
plot(df, pch= 20 )

Способ 2: используйте пакеты ggplot2 и GGally.

 library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df)

В следующих примерах показано, как использовать каждый метод на практике со следующим фреймом данных в R:

 #create data frame
df <- data. frame (points=c(99, 90, 86, 88, 95, 99, 101, 104),
                 assists=c(33, 28, 31, 39, 40, 40, 35, 47),
                 rebounds=c(30, 28, 24, 24, 20, 20, 15, 12))

#view first few rows of data frame
head(df)

  points assists rebounds
1 99 33 30
2 90 28 28
3 86 31 24
4 88 39 24
5 95 40 20
6 99 40 20

Пример 1. Создайте матрицу диаграммы рассеяния с использованием базы R

Мы можем использовать базовую функцию Rplot() для создания матрицы диаграммы рассеяния для каждой переменной в нашем фрейме данных:

 #create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col=' steelblue ')

матрица диаграммы рассеяния в R

Способ интерпретации матрицы следующий:

  • Имена переменных отображаются вдоль диагональных прямоугольников.
  • Во всех остальных полях отображается диаграмма рассеяния взаимосвязей между каждой парной комбинацией переменных. Например, в поле в правом верхнем углу матрицы отображается диаграмма рассеяния значений очков и подборов . В средней левой области показана диаграмма рассеяния значений очков , передач и т. д.

Обратите внимание, что cex управляет размером точек пути, а col — цветом точек.

Пример 2. Создайте матрицу диаграммы рассеяния с помощью ggplot2 и GGally

Мы также можем использовать функцию ggpairs() из пакетов ggplot2 и GGally в R, чтобы создать матрицу диаграммы рассеяния для каждой переменной в нашем фрейме данных:

 library (ggplot2)
library (GGally)

#create scatterplot matrix
ggpairs(df) 

Матрица диаграммы рассеяния в ggplot2

Эта матрица диаграммы рассеяния содержит те же диаграммы рассеяния, что и функция R baseplot() , но, кроме того, мы также можем видеть коэффициент корреляции между каждой парной комбинацией переменных, а также график плотности для каждой отдельной переменной.

Например, мы можем увидеть:

  • Коэффициент корреляции между результативными передачами и очками составляет 0,571 .
  • Коэффициент корреляции между подборами и очками составляет -0,598 .
  • Коэффициент корреляции между подборами и передачами составляет -0,740 .

Маленькая звездочка ( * ) рядом с -0,740 также указывает на то, что корреляция между подборами и передачами статистически значима.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как создать корреляционную матрицу в R
Как создать облака точек по группам в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *