Come creare una matrice di correlazione in python


Un modo per quantificare la relazione tra due variabili è utilizzare il coefficiente di correlazione di Pearson , che è una misura dell’associazione lineare tra due variabili .

Assume un valore compreso tra -1 e 1 dove:

  • -1 indica una correlazione lineare perfettamente negativa.
  • 0 indica alcuna correlazione lineare.
  • 1 indica una correlazione lineare perfettamente positiva.

Quanto più il coefficiente di correlazione si allontana da zero, tanto più forte è la relazione tra le due variabili.

Ma in alcuni casi, vogliamo comprendere la correlazione tra più coppie di variabili. In questi casi, possiamo creare una matrice di correlazione , ovvero una tabella quadrata che mostra i coefficienti di correlazione tra diverse combinazioni di variabili a coppie.

Questo tutorial spiega come creare e interpretare una matrice di correlazione in Python.

Come creare una matrice di correlazione in Python

Utilizzare i passaggi seguenti per creare una matrice di correlazione in Python.

Passaggio 1: crea il set di dati.

 import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd. DataFrame (data, columns=['assists','rebounds','points'])
df

   assist rebound points
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Passaggio 2: creare la matrice di correlazione.

 #create correlation matrix
df. corr ()

                assists rebound points
assists 1.000000 -0.244861 -0.329573
rebounds -0.244861 1.000000 -0.522092
points -0.329573 -0.522092 1.000000

#create same correlation matrix with coefficients rounded to 3 decimals 
df. corr (). round (3)
	       assists rebound points
assists 1.000 -0.245 -0.330
rebounds -0.245 1.000 -0.522
points -0.330 -0.522 1.000

Passaggio 3: interpretare la matrice di correlazione.

I coefficienti di correlazione lungo la diagonale della tabella sono tutti pari a 1 perché ogni variabile è perfettamente correlata con se stessa.

Tutti gli altri coefficienti di correlazione indicano la correlazione tra diverse combinazioni di variabili a coppie. Per esempio:

  • Il coefficiente di correlazione tra assist e rimbalzi è -0,245 .
  • Il coefficiente di correlazione tra assist e punti è -0,330 .
  • Il coefficiente di correlazione tra rimbalzi e punti è -0,522 .

Passaggio 4: visualizzare la matrice di correlazione (facoltativo).

Puoi visualizzare la matrice di correlazione utilizzando le opzioni di stile disponibili in panda:

 corr = df. corr ()
corr. style . background_gradient (cmap='coolwarm')

Matrice di correlazione in Python

Puoi anche modificare l’argomento cmap per produrre una matrice di correlazione con colori diversi.

 corr = df. corr ()
corr. style . background_gradient (cmap=' RdYlGn ') 

Matrice di correlazione con matplotlib in Python

 corr = df. corr ()
corr. style . background_gradient (cmap=' bwr ') 

Matrice di correlazione utilizzando Panda

 corr = df. corr ()
corr. style . background_gradient (cmap=' PuOr ') 

Esempio di matrice di correlazione in Python

Nota : per un elenco completo degli argomenti cmap , consultare la documentazione di matplotlib .

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *