Come creare una matrice di correlazione in python
Un modo per quantificare la relazione tra due variabili è utilizzare il coefficiente di correlazione di Pearson , che è una misura dell’associazione lineare tra due variabili .
Assume un valore compreso tra -1 e 1 dove:
- -1 indica una correlazione lineare perfettamente negativa.
- 0 indica alcuna correlazione lineare.
- 1 indica una correlazione lineare perfettamente positiva.
Quanto più il coefficiente di correlazione si allontana da zero, tanto più forte è la relazione tra le due variabili.
Ma in alcuni casi, vogliamo comprendere la correlazione tra più coppie di variabili. In questi casi, possiamo creare una matrice di correlazione , ovvero una tabella quadrata che mostra i coefficienti di correlazione tra diverse combinazioni di variabili a coppie.
Questo tutorial spiega come creare e interpretare una matrice di correlazione in Python.
Come creare una matrice di correlazione in Python
Utilizzare i passaggi seguenti per creare una matrice di correlazione in Python.
Passaggio 1: crea il set di dati.
import pandas as pd data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10], 'rebounds': [12, 14, 13, 7, 8, 8, 9, 13], 'points': [22, 24, 26, 26, 29, 32, 20, 14] } df = pd. DataFrame (data, columns=['assists','rebounds','points']) df assist rebound points 0 4 12 22 1 5 14 24 2 5 13 26 3 6 7 26 4 7 8 29 5 8 8 32 6 8 9 20 7 10 13 14
Passaggio 2: creare la matrice di correlazione.
#create correlation matrix df. corr () assists rebound points assists 1.000000 -0.244861 -0.329573 rebounds -0.244861 1.000000 -0.522092 points -0.329573 -0.522092 1.000000 #create same correlation matrix with coefficients rounded to 3 decimals df. corr (). round (3) assists rebound points assists 1.000 -0.245 -0.330 rebounds -0.245 1.000 -0.522 points -0.330 -0.522 1.000
Passaggio 3: interpretare la matrice di correlazione.
I coefficienti di correlazione lungo la diagonale della tabella sono tutti pari a 1 perché ogni variabile è perfettamente correlata con se stessa.
Tutti gli altri coefficienti di correlazione indicano la correlazione tra diverse combinazioni di variabili a coppie. Per esempio:
- Il coefficiente di correlazione tra assist e rimbalzi è -0,245 .
- Il coefficiente di correlazione tra assist e punti è -0,330 .
- Il coefficiente di correlazione tra rimbalzi e punti è -0,522 .
Passaggio 4: visualizzare la matrice di correlazione (facoltativo).
Puoi visualizzare la matrice di correlazione utilizzando le opzioni di stile disponibili in panda:
corr = df. corr () corr. style . background_gradient (cmap='coolwarm')
Puoi anche modificare l’argomento cmap per produrre una matrice di correlazione con colori diversi.
corr = df. corr () corr. style . background_gradient (cmap=' RdYlGn ')
corr = df. corr () corr. style . background_gradient (cmap=' bwr ')
corr = df. corr () corr. style . background_gradient (cmap=' PuOr ')
Nota : per un elenco completo degli argomenti cmap , consultare la documentazione di matplotlib .