Come creare una matrice di covarianza in excel
La covarianza è una misura di come i cambiamenti in una variabile sono associati ai cambiamenti in una seconda variabile. Più specificamente, è una misura del grado in cui due variabili sono linearmente associate.
La formula per calcolare la covarianza tra due variabili, X e Y è:
COV( X , Y ) = Σ(x- x )(y- y ) / n
Una matrice di covarianza è una matrice quadrata che mostra la covarianza tra molte variabili diverse. Questo può essere un modo semplice e utile per capire come le diverse variabili sono correlate in un set di dati.
L’esempio seguente mostra come creare una matrice di covarianza in Excel utilizzando un semplice set di dati.
Come creare una matrice di covarianza in Excel
Supponiamo di avere il seguente set di dati che mostra i punteggi dei test di 10 studenti diversi in tre materie: matematica, scienze e storia.
Per creare una matrice di covarianza per questo set di dati, fai clic sull’opzione Analisi dei dati in alto a destra di Excel nella scheda Dati .
Nota: se non vedi l’opzione Analisi dati, devi prima caricare Data Analysis Toolpak .
Dopo aver fatto clic su questa opzione, verrà visualizzata una nuova finestra. Fare clic su Covarianza .
Nella casella Intervallo di input , digita “$A$1:$C$11” perché questo è l’intervallo di celle in cui si trova il nostro set di dati. Seleziona la casella Etichette nella prima riga per indicare a Excel che le etichette per le nostre variabili sono nella prima riga. Quindi, nella casella Intervallo di output , digita qualsiasi cella in cui desideri che venga visualizzata la matrice di covarianza. Penso che la cella $E$2. Quindi fare clic su OK .
La matrice di covarianza viene generata automaticamente e appare nella cella $E$2:
Come interpretare una matrice di covarianza
Una volta che abbiamo una matrice di covarianza, è abbastanza semplice interpretare i valori della matrice.
I valori lungo le diagonali della matrice sono semplicemente le varianze di ciascun soggetto. Per esempio:
- La varianza dei punteggi di matematica è 64,96
- La varianza dei punteggi scientifici è 56,4
- La varianza del punteggio storico è 75,56
Gli altri valori della matrice rappresentano le covarianze tra i diversi soggetti. Per esempio:
- La covarianza tra i punteggi di matematica e scienze è 33,2.
- La covarianza tra i punteggi di matematica e storia è -24,44.
- La covarianza tra i punteggi di scienza e storia è -24,1.
Un numero positivo per la covarianza indica che due variabili tendono ad aumentare o diminuire in tandem. Ad esempio, matematica e scienze hanno una covarianza positiva (33,2), indicando che gli studenti che ottengono punteggi elevati in matematica tendono ad ottenere punteggi elevati anche in scienze. Allo stesso modo, gli studenti che ottengono scarsi risultati in matematica tendono ad avere scarsi risultati anche in scienze.
Un numero negativo per la covarianza indica che all’aumentare di una variabile, una seconda variabile tende a diminuire. Ad esempio, matematica e storia hanno una covarianza negativa (-24,44), indicando che gli studenti che ottengono punteggi alti in matematica tendono ad avere punteggi bassi in storia. Allo stesso modo, gli studenti che ottengono punteggi bassi in matematica tendono ad ottenere punteggi alti in storia.