Hoe u een covariantiematrix in python maakt
Covariantie is een maatstaf voor hoe veranderingen in één variabele verband houden met veranderingen in een tweede variabele. Meer specifiek is het een maatstaf voor de mate waarin twee variabelen lineair geassocieerd zijn.
Een covariantiematrix is een vierkante matrix die de covariantie tussen veel verschillende variabelen weergeeft. Dit kan een nuttige manier zijn om te begrijpen hoe verschillende variabelen in een dataset met elkaar samenhangen.
In het volgende voorbeeld ziet u hoe u een covariantiematrix in Python maakt.
Hoe u een covariantiematrix in Python maakt
Gebruik de volgende stappen om een covariantiematrix in Python te maken.
Stap 1: Maak de gegevensset.
Eerst zullen we een dataset maken met de testscores van 10 verschillende studenten in drie vakken: wiskunde, natuurwetenschappen en geschiedenis.
import numpy as np math = [84, 82, 81, 89, 73, 94, 92, 70, 88, 95] science = [85, 82, 72, 77, 75, 89, 95, 84, 77, 94] history = [97, 94, 93, 95, 88, 82, 78, 84, 69, 78] data = np.array([math, science, history])
Stap 2: Maak de covariantiematrix.
Vervolgens zullen we de covariantiematrix voor deze dataset maken met behulp van de numpy cov() functie, waarbij we specificeren dat bias = True, zodat we de populatiecovariantiematrix kunnen berekenen.
np.cov(data, bias= True )
array([[ 64.96, 33.2, -24.44],
[33.2, 56.4, -24.1],
[-24.44, -24.1, 75.56]])
Stap 3: Interpreteer de covariantiematrix.
De waarden langs de diagonalen van de matrix zijn eenvoudigweg de varianties van elk onderwerp. Bijvoorbeeld:
- De variantie van wiskundescores is 64,96
- De variantie van wetenschapsscores is 56,4
- De historische scorevariantie is 75,56
De overige waarden van de matrix vertegenwoordigen de covarianties tussen de verschillende onderwerpen. Bijvoorbeeld:
- De covariantie tussen wiskunde- en natuurwetenschappenscores is 33,2.
- De covariantie tussen wiskunde- en geschiedenisscores is -24,44.
- De covariantie tussen wetenschaps- en geschiedenisscores is -24,1.
Een positief getal voor covariantie geeft aan dat twee variabelen de neiging hebben om tegelijkertijd te stijgen of dalen. Wiskunde en natuurwetenschappen hebben bijvoorbeeld een positieve covariantie (33,2), wat aangeeft dat leerlingen die hoog scoren op wiskunde ook vaak hoog scoren op natuurwetenschappen. Omgekeerd presteren leerlingen die slecht presteren in de wiskunde ook vaak slecht in de natuurwetenschappen.
Een negatief getal voor covariantie geeft aan dat naarmate één variabele toeneemt, een tweede variabele de neiging heeft af te nemen. Wiskunde en geschiedenis hebben bijvoorbeeld een negatieve covariantie (-24,44), wat aangeeft dat leerlingen die hoog scoren op wiskunde doorgaans laag scoren op geschiedenis. Omgekeerd scoren leerlingen die laag scoren op wiskunde doorgaans hoog op geschiedenis.
Stap 4: Visualiseer de covariantiematrix (optioneel).
U kunt de covariantiematrix visualiseren met behulp van de heatmap() -functie van het seaborn-pakket:
import seaborn as sns import matplotlib.pyplot as plt cov = np.cov(data, bias=True) labs = ['math', 'science', 'history'] sns.heatmap(cov, annot=True, fmt='g', xticklabels=labs, yticklabels=labs) plt.show()
U kunt het kleurenpalet ook wijzigen door het cmap- argument op te geven:
sns.heatmap(cov, annot=True, fmt='g', xticklabels=labs, yticklabels=labs, cmap=' YlGnBu ')
plt.show()
Raadpleeg de seaborn-documentatie voor meer informatie over het vormgeven van deze heatmap.