Руководство по тесту сферичности бартлетта


Тест сферичности Бартлетта сравнивает наблюдаемую корреляционную матрицу с единичной матрицей. По сути, он проверяет, существует ли некоторая избыточность между переменными, которые можно суммировать с рядом факторов.

Нулевая гипотеза теста заключается в том, что переменные ортогональны, то есть некоррелированы. Альтернативная гипотеза состоит в том, что переменные не ортогональны, то есть они достаточно коррелированы до такой степени, что корреляционная матрица значительно расходится с единичной матрицей.

Этот тест часто выполняется перед использованием метода сокращения данных, такого как анализ главных компонентов или факторный анализ, чтобы убедиться, что метод сокращения данных действительно может существенно сжать данные.

Примечание. Критерий сферичности Бартлетта — это не то же самое, что тест Бартлетта на равенство дисперсий . Это обычная путаница, поскольку у них похожие имена.

Матрица корреляции и единичная матрица

Матрица корреляции — это просто матрица значений, показывающая коэффициенты корреляции между переменными. Например, следующая матрица корреляции показывает коэффициенты корреляции между различными переменными для профессиональных баскетбольных команд.

Коэффициенты корреляции могут варьироваться от -1 до 1. Чем дальше значение от 0, тем выше корреляция между двумя переменными.

Единичная матрица — это матрица, в которой все значения по диагонали равны 1, а все остальные значения равны 0.

В этом случае, если числа в этой матрице представляют собой коэффициенты корреляции, это означает, что каждая переменная совершенно ортогональна (т.е. «некоррелирована») ко всем другим переменным, и поэтому метод сокращения данных, такой как PCA или факторный анализ, не сможет « сжимать» данные осмысленным образом.

Итак, причина, по которой мы выполняем тест сферичности Бартлетта, заключается в том, чтобы гарантировать, что корреляционная матрица переменных в нашем наборе данных значительно отличается от единичной матрицы, чтобы мы знали, что данные метода сокращения подходят для использования.

Если значение p теста сферичности Бартлетта меньше выбранного уровня значимости (обычно выбираются 0,10, 0,05 и 0,01), то наш набор данных подходит для метода сокращения данных.

Как выполнить тест сферичности Бартлетта в R

Чтобы выполнить тест Бартлетта на сферичность в R, мы можем использовать функцию cortest.bartlett() из библиотеки psych . Общий синтаксис этой функции следующий:

cortest.bartlett(R, n)

  • R: корреляционная матрица набора данных.
  • n: размер выборки набора данных

Следующий код демонстрирует, как выполнить этот тест на созданном нами поддельном наборе данных:

 #make this example reproducible
set.seed(0)

#create fake data
data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8))

#view first six rows of data
head(data)
#ABC
#1 6.0518171 4.5968242 11.25487348
#2 -0.3049334 0.7397837 -1.21421297
#3 6.3191971 17.6481878 0.07208074
#4 6.0897173 -1.7720347 5.37264242
#5 2.6585657 2.6707352 -4.04308622
#6 -5.1598002 4.5008479 9.61375026

#find correlation matrix of data
cor_matrix <- cor(data)

#view correlation matrix
cor_matrix

#ABC
#A 1.0000000 0.1600155667 0.2825308511
#B 0.1600156 1.0000000000 0.0005358384
#C 0.2825309 0.0005358384 1.0000000000

#load psych library
library(psych)

#perform Bartlett's Test of Sphericity
cortest.bartlett(cor_matrix, n = nrow(data))

#$chisq
#[1] 5.252329
#
#$p.value
#[1] 0.1542258
#
#$df
#[1] 3

Статистика теста хи-квадрат равна 5,252329, а соответствующее значение p составляет 0,1542258, что не меньше нашего уровня значимости (давайте возьмем 0,05). Таким образом, эти данные, вероятно, не подходят для PCA или факторного анализа.

Проще говоря, три переменные в нашем наборе данных недостаточно коррелируют, поэтому метод сокращения данных, такой как PCA или факторный анализ, столкнется с трудностями при сжатии этих переменных в линейные комбинации, способные уловить значительную дисперсию, присутствующую в данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *