Cara membuat matriks kovariansi dengan python
Kovarian adalah ukuran bagaimana perubahan pada satu variabel dikaitkan dengan perubahan pada variabel kedua. Lebih khusus lagi, ini adalah ukuran sejauh mana dua variabel terkait secara linier.
Matriks kovarians adalah matriks persegi yang menunjukkan kovarians antara banyak variabel yang berbeda. Ini bisa menjadi cara yang berguna untuk memahami bagaimana berbagai variabel saling terkait dalam kumpulan data.
Contoh berikut menunjukkan cara membuat matriks kovarians dengan Python.
Cara Membuat Matriks Kovariansi dengan Python
Gunakan langkah-langkah berikut untuk membuat matriks kovarians dengan Python.
Langkah 1: Buat kumpulan data.
Pertama, kita akan membuat kumpulan data yang berisi nilai ujian 10 siswa berbeda dalam tiga mata pelajaran: matematika, sains, dan sejarah.
import numpy as np math = [84, 82, 81, 89, 73, 94, 92, 70, 88, 95] science = [85, 82, 72, 77, 75, 89, 95, 84, 77, 94] history = [97, 94, 93, 95, 88, 82, 78, 84, 69, 78] data = np.array([math, science, history])
Langkah 2: Buat matriks kovarians.
Selanjutnya, kita akan membuat matriks kovarians untuk kumpulan data ini menggunakan fungsi numpy cov() , dengan menetapkan bahwa bias = True sehingga kita dapat menghitung matriks kovarians populasi.
np.cov(data, bias= True )
array([[ 64.96, 33.2, -24.44],
[33.2, 56.4, -24.1],
[-24.44, -24.1, 75.56]])
Langkah 3: Interpretasikan matriks kovarians.
Nilai-nilai sepanjang diagonal matriks hanyalah varian dari setiap subjek. Misalnya:
- Varians skor matematika sebesar 64,96
- Varians skor sains adalah 56,4
- Varians skor historis adalah 75,56
Nilai-nilai lain dari matriks mewakili kovarians antara subjek yang berbeda. Misalnya:
- Kovariansi antara nilai matematika dan sains adalah 33,2.
- Kovariansi antara nilai matematika dan sejarah adalah -24,44.
- Kovariansi antara skor sains dan sejarah adalah -24,1.
Angka positif untuk kovarians menunjukkan bahwa dua variabel cenderung meningkat atau menurun secara bersamaan. Misalnya, matematika dan sains memiliki kovarian positif (33,2), yang menunjukkan bahwa siswa yang mendapat nilai tinggi dalam matematika juga cenderung mendapat nilai tinggi dalam sains. Sebaliknya, siswa yang mempunyai prestasi buruk dalam matematika juga cenderung mempunyai prestasi buruk dalam sains.
Angka negatif untuk kovarians menunjukkan bahwa ketika satu variabel meningkat, variabel kedua cenderung menurun. Misalnya, matematika dan sejarah memiliki kovarians negatif (-24,44), yang menunjukkan bahwa siswa yang mendapat nilai matematika tinggi cenderung mendapat nilai rendah dalam sejarah. Sebaliknya, siswa yang mendapat nilai rendah dalam matematika cenderung mendapat nilai tinggi dalam sejarah.
Langkah 4: Visualisasikan matriks kovarians (opsional).
Anda dapat memvisualisasikan matriks kovarians menggunakan fungsi heatmap() dari paket seaborn:
import seaborn as sns import matplotlib.pyplot as plt cov = np.cov(data, bias=True) labs = ['math', 'science', 'history'] sns.heatmap(cov, annot=True, fmt='g', xticklabels=labs, yticklabels=labs) plt.show()
Anda juga dapat mengubah palet warna dengan menentukan argumen cmap :
sns.heatmap(cov, annot=True, fmt='g', xticklabels=labs, yticklabels=labs, cmap=' YlGnBu ')
plt.show()
Untuk detail selengkapnya tentang cara menata peta panas ini, lihat dokumentasi seaborn .