Come creare e interpretare una matrice di correlazione in excel
Un modo per quantificare la relazione tra due variabili è utilizzare il coefficiente di correlazione di Pearson , che è una misura dell’associazione lineare tra due variabili .
Ha un valore compreso tra -1 e 1 dove:
- -1 indica una correlazione lineare perfettamente negativa tra due variabili
- 0 indica alcuna correlazione lineare tra due variabili
- 1 indica una correlazione lineare perfettamente positiva tra due variabili
Quanto più il coefficiente di correlazione si allontana da zero, tanto più forte è la relazione tra le due variabili.
Ma in alcuni casi, vogliamo comprendere la correlazione tra più coppie di variabili.
In questi casi, possiamo creare una matrice di correlazione , ovvero una tabella quadrata che mostra i coefficienti di correlazione tra diverse combinazioni di variabili a coppie.
Questo tutorial spiega come creare e interpretare una matrice di correlazione in Excel.
Come creare una matrice di correlazione in Excel
Supponiamo di avere il seguente set di dati che mostra il numero medio di punti, rimbalzi e assist per 10 giocatori di basket:
Per creare una matrice di correlazione per questo set di dati, vai alla scheda Dati nella barra multifunzione superiore di Excel e fai clic su Analisi dei dati .
Se non vedi questa opzione, devi prima caricare il Data Analysis Toolpak gratuito in Excel .
Nella nuova finestra visualizzata, seleziona Correlazione e fai clic su OK .
Per Intervallo di input , seleziona le celle in cui si trovano i dati (inclusa la prima riga con etichette). Seleziona la casella accanto a Etichette nella prima riga . Per Intervallo di output , seleziona una cella in cui desideri che venga visualizzata la matrice di correlazione. Quindi fare clic su OK .
Ciò produrrà automaticamente la seguente matrice di correlazione:
Come interpretare una matrice di correlazione in Excel
I valori nelle singole celle della matrice di correlazione ci dicono il coefficiente di correlazione di Pearson tra ciascuna combinazione di variabili a coppie. Per esempio:
Correlazione tra punti e rimbalzi: -0,04639. Punti e rimbalzi sono leggermente correlati negativamente, ma questo valore è così vicino allo zero che non vi è alcuna prova evidente di un’associazione significativa tra queste due variabili.
Correlazione tra punti e assist: 0,121871. Punti e assist sono leggermente correlati positivamente, ma questo valore è anche abbastanza vicino allo zero, quindi non esiste una forte evidenza di un’associazione significativa tra queste due variabili.
Correlazione tra rimbalzi e assist: 0,713713. Rimbalzi e assist sono fortemente correlati positivamente. Cioè, i giocatori che hanno più rimbalzi tendono anche ad avere più assist.
Da notare che i valori diagonali della matrice di correlazione sono tutti 1 perché la correlazione tra una variabile e se stessa è sempre 1. In pratica questo numero non è utile da interpretare.
Bonus: Visualizza i coefficienti di correlazione
Un modo semplice per visualizzare il valore dei coefficienti di correlazione nella tabella consiste nell’applicare la formattazione condizionale alla tabella.
Sulla barra multifunzione superiore di Excel, vai alla scheda Home , quindi al gruppo Stili .
Fare clic su Grafico formattazione condizionale , quindi su Scale di colore , quindi su Scala di colore verde-giallo-rosso .
Ciò applica automaticamente la seguente scala di colori alla matrice di correlazione:
Questo ci aiuta a visualizzare facilmente la forza delle correlazioni tra le variabili.
Questo è un suggerimento particolarmente utile se lavoriamo con una matrice di correlazione con molte variabili, perché ci aiuta a identificare rapidamente le variabili che hanno le correlazioni più forti.
Correlati: cos’è considerata una correlazione “forte”?
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in R:
Come creare una matrice di grafico a dispersione in Excel
Come eseguire un test di correlazione in Excel