Come creare una matrice di covarianza in r
La covarianza è una misura di come i cambiamenti in una variabile sono associati ai cambiamenti in una seconda variabile. Più specificamente, è una misura del grado in cui due variabili sono linearmente associate.
Una matrice di covarianza è una matrice quadrata che mostra la covarianza tra molte variabili diverse. Questo può essere un modo utile per comprendere come le diverse variabili sono correlate in un set di dati.
L’esempio seguente mostra come creare una matrice di covarianza in R.
Come creare una matrice di covarianza in R
Utilizzare i passaggi seguenti per creare una matrice di covarianza in R.
Passaggio 1: creare il frame di dati.
Per prima cosa creeremo un frame di dati contenente i punteggi dei test di 10 studenti diversi in tre materie: matematica, scienze e storia.
#create data frame data <- data.frame(math = c(84, 82, 81, 89, 73, 94, 92, 70, 88, 95), science = c(85, 82, 72, 77, 75, 89, 95, 84, 77, 94), history = c(97, 94, 93, 95, 88, 82, 78, 84, 69, 78)) #view data frame data math science history 1 84 85 97 2 82 82 94 3 81 72 93 4 89 77 95 5 73 75 88 6 94 89 82 7 92 95 78 8 70 84 84 9 88 77 69 10 95 94 78
Passaggio 2: creare la matrice di covarianza.
Successivamente, creeremo la matrice di covarianza per questo set di dati utilizzando la funzione cov() :
#create covariance matrix
cov(data)
math science history
math 72.17778 36.88889 -27.15556
science 36.88889 62.66667 -26.77778
history -27.15556 -26.77778 83.95556
Passaggio 3: Interpretare la matrice di covarianza.
I valori lungo le diagonali della matrice sono semplicemente le varianze di ciascun soggetto. Per esempio:
- La varianza dei punteggi di matematica è 72,18
- La varianza dei punteggi scientifici è 62,67
- La varianza del punteggio storico è 83,96
Gli altri valori della matrice rappresentano le covarianze tra i diversi soggetti. Per esempio:
- La covarianza tra i punteggi di matematica e scienze è 36,89.
- La covarianza tra i punteggi di matematica e storia è -27,16.
- La covarianza tra i punteggi di scienza e storia è -26,78.
Un numero positivo per la covarianza indica che due variabili tendono ad aumentare o diminuire in tandem. Ad esempio, matematica e scienze hanno una covarianza positiva (36,89), indicando che gli studenti che ottengono punteggi elevati in matematica tendono ad ottenere punteggi elevati anche in scienze. Al contrario, gli studenti che ottengono scarsi risultati in matematica tendono ad avere scarsi risultati anche in scienze.
Un numero negativo per la covarianza indica che all’aumentare di una variabile, una seconda variabile tende a diminuire. Ad esempio, matematica e storia hanno una covarianza negativa (-27,16), indicando che gli studenti che ottengono risultati elevati in matematica tendono ad avere risultati bassi in storia. Al contrario, gli studenti che ottengono punteggi bassi in matematica tendono ad ottenere punteggi alti in storia.
Puoi trovare altri tutorial su R qui .