Hoe u een correlatiematrix in python maakt
Eén manier om de relatie tussen twee variabelen te kwantificeren is door dePearson-correlatiecoëfficiënt te gebruiken, een maatstaf voor de lineaire associatie tussen twee variabelen .
Er is een waarde tussen -1 en 1 nodig, waarbij:
- -1 duidt op een volkomen negatieve lineaire correlatie.
- 0 geeft aan dat er geen lineaire correlatie is.
- 1 geeft een perfect positieve lineaire correlatie aan.
Hoe verder de correlatiecoëfficiënt van nul verwijderd is, hoe sterker de relatie tussen de twee variabelen.
Maar in sommige gevallen willen we de correlatie tussen meerdere paren variabelen begrijpen. In deze gevallen kunnen we een correlatiematrix maken, een vierkante tabel die de correlatiecoëfficiënten tussen verschillende paarsgewijze combinaties van variabelen weergeeft.
In deze tutorial wordt uitgelegd hoe u een correlatiematrix in Python maakt en interpreteert.
Hoe u een correlatiematrix in Python maakt
Gebruik de volgende stappen om een correlatiematrix in Python te maken.
Stap 1: Maak de gegevensset.
import pandas as pd data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10], 'rebounds': [12, 14, 13, 7, 8, 8, 9, 13], 'points': [22, 24, 26, 26, 29, 32, 20, 14] } df = pd. DataFrame (data, columns=['assists','rebounds','points']) df assist rebound points 0 4 12 22 1 5 14 24 2 5 13 26 3 6 7 26 4 7 8 29 5 8 8 32 6 8 9 20 7 10 13 14
Stap 2: Maak de correlatiematrix.
#create correlation matrix df. corr () assists rebound points assists 1.000000 -0.244861 -0.329573 rebounds -0.244861 1.000000 -0.522092 points -0.329573 -0.522092 1.000000 #create same correlation matrix with coefficients rounded to 3 decimals df. corr (). round (3) assists rebound points assists 1.000 -0.245 -0.330 rebounds -0.245 1.000 -0.522 points -0.330 -0.522 1.000
Stap 3: Interpreteer de correlatiematrix.
De correlatiecoëfficiënten langs de diagonaal van de tabel zijn allemaal gelijk aan 1, omdat elke variabele perfect met zichzelf gecorreleerd is.
Alle andere correlatiecoëfficiënten geven de correlatie aan tussen verschillende paarsgewijze combinaties van variabelen. Bijvoorbeeld:
- De correlatiecoëfficiënt tussen assists en rebounds is -0,245 .
- De correlatiecoëfficiënt tussen assists en punten is -0,330 .
- De correlatiecoëfficiënt tussen rebounds en punten is -0,522 .
Stap 4: Visualiseer de correlatiematrix (optioneel).
U kunt de correlatiematrix visualiseren met behulp van de stijlopties die beschikbaar zijn in panda’s:
corr = df. corr () corr. style . background_gradient (cmap='coolwarm')
U kunt het cmap- argument ook wijzigen om een correlatiematrix met verschillende kleuren te produceren.
corr = df. corr () corr. style . background_gradient (cmap=' RdYlGn ')
corr = df. corr () corr. style . background_gradient (cmap=' bwr ')
corr = df. corr () corr. style . background_gradient (cmap=' PuOr ')
Opmerking : zie de matplotlib-documentatie voor een volledige lijst met cmap- argumenten.