Посібник до тесту бартлетта на сферичність
Тест Бартлетта на сферичність порівнює спостережувану кореляційну матрицю з матрицею ідентичності. По суті, він перевіряє, чи є надлишковість між змінними, які можна узагальнити за допомогою кількох факторів.
Нульова гіпотеза тесту полягає в тому, що змінні є ортогональними, тобто некорельованими. Альтернативна гіпотеза полягає в тому, що змінні не є ортогональними, тобто вони достатньо корельовані до точки, де кореляційна матриця значно розходиться з одиничною матрицею.
Цей тест часто виконується перед використанням методу редукції даних, наприклад аналізу головних компонентів або факторного аналізу, щоб перевірити, чи метод редукції даних дійсно може суттєво стиснути дані.
Примітка. Тест Бартлетта на сферичність не те саме, що тест Бартлетта на рівність дисперсій . Це звичайна плутанина, оскільки вони мають схожі назви.
Кореляційна матриця та матриця тотожності
Кореляційна матриця – це просто матриця значень, яка показує коефіцієнти кореляції між змінними. Наприклад, наведена нижче кореляційна матриця показує коефіцієнти кореляції між різними змінними для професійних баскетбольних команд.
Коефіцієнти кореляції можуть змінюватися від -1 до 1. Чим далі значення від 0, тим вище кореляція між двома змінними.
Одинична матриця – це матриця, в якій всі значення на діагоналі дорівнюють 1, а всі інші значення – 0.
У цьому випадку, якщо числа в цій матриці представляють коефіцієнти кореляції, це означає, що кожна змінна ідеально ортогональна (тобто «не корельована») до всіх інших змінних, і, отже, метод зменшення даних, такий як PCA або факторний аналіз, не зможе “ стискати» дані значущим чином.
Отже, причина, по якій ми виконуємо тест Бартлетта на сферичність, полягає в тому, щоб переконатися, що кореляційна матриця змінних у нашому наборі даних суттєво розходиться з матрицею ідентичності, щоб ми знали, що дані техніки редукції доречні для використання.
Якщо p-значення критерію сферичності Бартлетта менше вибраного рівня значущості (звичайні варіанти — 0,10, 0,05 і 0,01), тоді наш набір даних підходить для техніки зменшення даних.
Як виконати тест сферичності Бартлетта в R
Щоб виконати тест Бартлетта на сферичність у R, ми можемо використати функцію cortest.bartlett() із бібліотеки psych . Загальний синтаксис цієї функції такий:
cortest.bartlett(R, n)
- R: кореляційна матриця набору даних
- n: розмір вибірки набору даних
Наступний код демонструє, як виконати цей тест на створеному нами підробленому наборі даних:
#make this example reproducible set.seed(0) #create fake data data <- data.frame(A = rnorm(50, 1, 4), B = rnorm(50, 3, 6), C = rnorm(50, 5, 8)) #view first six rows of data head(data) #ABC #1 6.0518171 4.5968242 11.25487348 #2 -0.3049334 0.7397837 -1.21421297 #3 6.3191971 17.6481878 0.07208074 #4 6.0897173 -1.7720347 5.37264242 #5 2.6585657 2.6707352 -4.04308622 #6 -5.1598002 4.5008479 9.61375026 #find correlation matrix of data cor_matrix <- cor(data) #view correlation matrix cor_matrix #ABC #A 1.0000000 0.1600155667 0.2825308511 #B 0.1600156 1.0000000000 0.0005358384 #C 0.2825309 0.0005358384 1.0000000000 #load psych library library(psych) #perform Bartlett's Test of Sphericity cortest.bartlett(cor_matrix, n = nrow(data)) #$chisq #[1] 5.252329 # #$p.value #[1] 0.1542258 # #$df #[1] 3
Статистика тесту хі-квадрат становить 5,252329, а відповідне значення p — 0,1542258, що не менше нашого рівня значущості (використовуємо 0,05). Таким чином, ці дані, ймовірно, не підходять для PCA або факторного аналізу.
Простіше кажучи, три змінні в нашому наборі даних недостатньо корельовані, тому метод редукції даних, такий як PCA або факторний аналіз, виникне труднощі зі стисненням цих змінних у лінійні комбінації, здатні зафіксувати значну дисперсію, наявну в даних.