Cara membuat matriks korelasi dengan python
Salah satu cara untuk mengukur hubungan antara dua variabel adalah dengan menggunakan koefisien korelasi Pearson , yang merupakan ukuran hubungan linier antara dua variabel .
Dibutuhkan nilai antara -1 dan 1 di mana:
- -1 menunjukkan korelasi linier negatif sempurna.
- 0 menunjukkan tidak ada korelasi linier.
- 1 menunjukkan korelasi linier positif sempurna.
Semakin jauh koefisien korelasi dari nol maka semakin kuat hubungan kedua variabel tersebut.
Namun dalam beberapa kasus, kami ingin memahami korelasi antara beberapa pasangan variabel. Dalam kasus ini, kita dapat membuat matriks korelasi , yaitu tabel persegi yang menunjukkan koefisien korelasi antara beberapa kombinasi variabel berpasangan.
Tutorial ini menjelaskan cara membuat dan menafsirkan matriks korelasi dengan Python.
Cara Membuat Matriks Korelasi dengan Python
Gunakan langkah-langkah berikut untuk membuat matriks korelasi dengan Python.
Langkah 1: Buat kumpulan data.
import pandas as pd data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10], 'rebounds': [12, 14, 13, 7, 8, 8, 9, 13], 'points': [22, 24, 26, 26, 29, 32, 20, 14] } df = pd. DataFrame (data, columns=['assists','rebounds','points']) df assist rebound points 0 4 12 22 1 5 14 24 2 5 13 26 3 6 7 26 4 7 8 29 5 8 8 32 6 8 9 20 7 10 13 14
Langkah 2: Buat matriks korelasi.
#create correlation matrix df. corr () assists rebound points assists 1.000000 -0.244861 -0.329573 rebounds -0.244861 1.000000 -0.522092 points -0.329573 -0.522092 1.000000 #create same correlation matrix with coefficients rounded to 3 decimals df. corr (). round (3) assists rebound points assists 1.000 -0.245 -0.330 rebounds -0.245 1.000 -0.522 points -0.330 -0.522 1.000
Langkah 3: Interpretasikan matriks korelasi.
Koefisien korelasi sepanjang diagonal tabel semuanya sama dengan 1 karena setiap variabel berkorelasi sempurna dengan variabelnya sendiri.
Semua koefisien korelasi lainnya menunjukkan korelasi antara kombinasi variabel berpasangan yang berbeda. Misalnya:
- Koefisien korelasi antara assist dan rebound adalah -0,245 .
- Koefisien korelasi antara assist dan poin adalah -0,330 .
- Koefisien korelasi antara rebound dan poin adalah -0,522 .
Langkah 4: Visualisasikan matriks korelasi (opsional).
Anda dapat memvisualisasikan matriks korelasi menggunakan opsi gaya yang tersedia di pandas:
corr = df. corr () corr. style . background_gradient (cmap='coolwarm')
Anda juga dapat memodifikasi argumen cmap untuk menghasilkan matriks korelasi dengan warna berbeda.
corr = df. corr () corr. style . background_gradient (cmap=' RdYlGn ')
corr = df. corr () corr. style . background_gradient (cmap=' bwr ')
corr = df. corr () corr. style . background_gradient (cmap=' PuOr ')
Catatan : Untuk daftar lengkap argumen cmap , lihat dokumentasi matplotlib .