Как создать таблицу сопряженности в r


Таблица сопряженности (иногда называемая «перекрестными таблицами») — это тип таблицы, в которой суммируются отношения между двумя категориальными переменными.

К счастью, в R легко создать таблицу сопряженности переменных с помощью функции сводной таблицы. В этом уроке показан пример того, как это сделать.

Пример: таблица непредвиденных обстоятельств в R

Допустим, у нас есть следующий набор данных, который отображает информацию о 20 различных заказах продуктов, включая тип приобретенного продукта, а также страну, в которой он был куплен:

 #create data
df <- data.frame(order_num = 1:20,
                 product= rep (c(' TV ', ' Radio ', ' Computer '), times =c(9, 6, 5)),
                 country= rep (c(' A ', ' B ', ' C ', ' D '), times =5))

#view data
df

   order_num product country
1 1 TV A
2 2 TV B
3 3 TV C
4 4 TV D
5 5 TV A
6 6 TV B
7 7 TV C
8 8 TV D
9 9 TV A
10 10 Radio B
11 11 Radio C
12 12 Radio D
13 13 Radio A
14 14 Radio B
15 15 Radio C
16 16 Computer D
17 17 Computer A
18 18 Computer B
19 19 Computer C
20 20 Computer D

Чтобы создать таблицу непредвиденных обстоятельств, мы можем просто использовать функцию table() и предоставить переменные продукта и страны в качестве аргументов:

 #create contingency table
table <- table(df$product, df$country)

#view contingency table
table

           ABCD
  Computer 1 1 1 2
  Radio 1 2 2 1
  TV 3 2 2 2

Мы также можем использовать функцию addmargins() для добавления полей в таблицу:

 #add margins to contingency table
table_w_margins <- addmargins(table)

#view contingency table
table_w_margins

            ABCD Sum
  Computer 1 1 1 2 5
  Radio 1 2 2 1 6
  TV 3 2 2 2 9
  Sum 5 5 5 5 20

Вот как интерпретировать таблицу:

  • Значение в правом нижнем углу указывает общее количество заказанных товаров: 20.
  • Значения в правой части показывают суммы строк: Всего было заказано 5 компьютеров, 6 радиоприемников и 9 телевизоров.
  • Значения внизу таблицы показывают суммы столбцов: всего было заказано 5 товаров в стране А, 5 в стране Б, 5 в стране С и 5 в стране D.
  • Значения внутри таблицы указывают количество конкретных товаров, заказанных в каждой стране: 1 компьютер из страны А, 1 радиоприемник из страны А, 3 телевизора из страны А и т. д.

Дополнительные ресурсы

Как усреднить по столбцам в R
Как суммировать определенные столбцы в R
Как вычислить среднее значение нескольких столбцов в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *