Como criar uma matriz de covariância em r
A covariância é uma medida de como as mudanças em uma variável estão associadas às mudanças em uma segunda variável. Mais especificamente, é uma medida do grau em que duas variáveis estão linearmente associadas.
Uma matriz de covariância é uma matriz quadrada que mostra a covariância entre muitas variáveis diferentes. Esta pode ser uma forma útil de compreender como diferentes variáveis estão relacionadas em um conjunto de dados.
O exemplo a seguir mostra como criar uma matriz de covariância em R.
Como criar uma matriz de covariância em R
Use as etapas a seguir para criar uma matriz de covariância em R.
Etapa 1: Crie o quadro de dados.
Primeiro, criaremos um quadro de dados contendo as pontuações dos testes de 10 alunos diferentes em três disciplinas: matemática, ciências e história.
#create data frame data <- data.frame(math = c(84, 82, 81, 89, 73, 94, 92, 70, 88, 95), science = c(85, 82, 72, 77, 75, 89, 95, 84, 77, 94), history = c(97, 94, 93, 95, 88, 82, 78, 84, 69, 78)) #view data frame data math science history 1 84 85 97 2 82 82 94 3 81 72 93 4 89 77 95 5 73 75 88 6 94 89 82 7 92 95 78 8 70 84 84 9 88 77 69 10 95 94 78
Etapa 2: Crie a matriz de covariância.
A seguir, criaremos a matriz de covariância para este conjunto de dados usando a função cov() :
#create covariance matrix
cov(data)
math science history
math 72.17778 36.88889 -27.15556
science 36.88889 62.66667 -26.77778
history -27.15556 -26.77778 83.95556
Etapa 3: interprete a matriz de covariância.
Os valores ao longo das diagonais da matriz são simplesmente as variâncias de cada assunto. Por exemplo:
- A variação das pontuações em matemática é 72,18
- A variação das pontuações em ciências é 62,67
- A variação histórica da pontuação é 83,96
Os demais valores da matriz representam as covariâncias entre os diferentes assuntos. Por exemplo:
- A covariância entre as pontuações em matemática e ciências é 36,89.
- A covariância entre as pontuações de matemática e história é -27,16.
- A covariância entre as pontuações de ciência e história é -26,78.
Um número positivo para covariância indica que duas variáveis tendem a aumentar ou diminuir em conjunto. Por exemplo, matemática e ciências têm uma covariância positiva (36,89), indicando que os alunos com notas altas em matemática também tendem a ter notas altas em ciências. Por outro lado, os alunos com mau desempenho em matemática também tendem a ter mau desempenho em ciências.
Um número negativo para covariância indica que à medida que uma variável aumenta, uma segunda variável tende a diminuir. Por exemplo, matemática e história têm uma covariância negativa (-27,16), indicando que os alunos com alto desempenho em matemática tendem a ter baixo desempenho em história. Por outro lado, os alunos com notas baixas em matemática tendem a ter notas altas em história.
Você pode encontrar mais tutoriais de R aqui .