Hoe u een correlatiematrix in python maakt


Eén manier om de relatie tussen twee variabelen te kwantificeren is door dePearson-correlatiecoëfficiënt te gebruiken, een maatstaf voor de lineaire associatie tussen twee variabelen .

Er is een waarde tussen -1 en 1 nodig, waarbij:

  • -1 duidt op een volkomen negatieve lineaire correlatie.
  • 0 geeft aan dat er geen lineaire correlatie is.
  • 1 geeft een perfect positieve lineaire correlatie aan.

Hoe verder de correlatiecoëfficiënt van nul verwijderd is, hoe sterker de relatie tussen de twee variabelen.

Maar in sommige gevallen willen we de correlatie tussen meerdere paren variabelen begrijpen. In deze gevallen kunnen we een correlatiematrix maken, een vierkante tabel die de correlatiecoëfficiënten tussen verschillende paarsgewijze combinaties van variabelen weergeeft.

In deze tutorial wordt uitgelegd hoe u een correlatiematrix in Python maakt en interpreteert.

Hoe u een correlatiematrix in Python maakt

Gebruik de volgende stappen om een correlatiematrix in Python te maken.

Stap 1: Maak de gegevensset.

 import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd. DataFrame (data, columns=['assists','rebounds','points'])
df

   assist rebound points
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Stap 2: Maak de correlatiematrix.

 #create correlation matrix
df. corr ()

                assists rebound points
assists 1.000000 -0.244861 -0.329573
rebounds -0.244861 1.000000 -0.522092
points -0.329573 -0.522092 1.000000

#create same correlation matrix with coefficients rounded to 3 decimals 
df. corr (). round (3)
	       assists rebound points
assists 1.000 -0.245 -0.330
rebounds -0.245 1.000 -0.522
points -0.330 -0.522 1.000

Stap 3: Interpreteer de correlatiematrix.

De correlatiecoëfficiënten langs de diagonaal van de tabel zijn allemaal gelijk aan 1, omdat elke variabele perfect met zichzelf gecorreleerd is.

Alle andere correlatiecoëfficiënten geven de correlatie aan tussen verschillende paarsgewijze combinaties van variabelen. Bijvoorbeeld:

  • De correlatiecoëfficiënt tussen assists en rebounds is -0,245 .
  • De correlatiecoëfficiënt tussen assists en punten is -0,330 .
  • De correlatiecoëfficiënt tussen rebounds en punten is -0,522 .

Stap 4: Visualiseer de correlatiematrix (optioneel).

U kunt de correlatiematrix visualiseren met behulp van de stijlopties die beschikbaar zijn in panda’s:

 corr = df. corr ()
corr. style . background_gradient (cmap='coolwarm')

Correlatiematrix in Python

U kunt het cmap- argument ook wijzigen om een correlatiematrix met verschillende kleuren te produceren.

 corr = df. corr ()
corr. style . background_gradient (cmap=' RdYlGn ') 

Correlatiematrix met matplotlib in Python

 corr = df. corr ()
corr. style . background_gradient (cmap=' bwr ') 

Correlatiematrix met behulp van Panda's

 corr = df. corr ()
corr. style . background_gradient (cmap=' PuOr ') 

Correlatiematrixvoorbeeld in Python

Opmerking : zie de matplotlib-documentatie voor een volledige lijst met cmap- argumenten.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert