Cara membuat matriks korelasi dengan python


Salah satu cara untuk mengukur hubungan antara dua variabel adalah dengan menggunakan koefisien korelasi Pearson , yang merupakan ukuran hubungan linier antara dua variabel .

Dibutuhkan nilai antara -1 dan 1 di mana:

  • -1 menunjukkan korelasi linier negatif sempurna.
  • 0 menunjukkan tidak ada korelasi linier.
  • 1 menunjukkan korelasi linier positif sempurna.

Semakin jauh koefisien korelasi dari nol maka semakin kuat hubungan kedua variabel tersebut.

Namun dalam beberapa kasus, kami ingin memahami korelasi antara beberapa pasangan variabel. Dalam kasus ini, kita dapat membuat matriks korelasi , yaitu tabel persegi yang menunjukkan koefisien korelasi antara beberapa kombinasi variabel berpasangan.

Tutorial ini menjelaskan cara membuat dan menafsirkan matriks korelasi dengan Python.

Cara Membuat Matriks Korelasi dengan Python

Gunakan langkah-langkah berikut untuk membuat matriks korelasi dengan Python.

Langkah 1: Buat kumpulan data.

 import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd. DataFrame (data, columns=['assists','rebounds','points'])
df

   assist rebound points
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Langkah 2: Buat matriks korelasi.

 #create correlation matrix
df. corr ()

                assists rebound points
assists 1.000000 -0.244861 -0.329573
rebounds -0.244861 1.000000 -0.522092
points -0.329573 -0.522092 1.000000

#create same correlation matrix with coefficients rounded to 3 decimals 
df. corr (). round (3)
	       assists rebound points
assists 1.000 -0.245 -0.330
rebounds -0.245 1.000 -0.522
points -0.330 -0.522 1.000

Langkah 3: Interpretasikan matriks korelasi.

Koefisien korelasi sepanjang diagonal tabel semuanya sama dengan 1 karena setiap variabel berkorelasi sempurna dengan variabelnya sendiri.

Semua koefisien korelasi lainnya menunjukkan korelasi antara kombinasi variabel berpasangan yang berbeda. Misalnya:

  • Koefisien korelasi antara assist dan rebound adalah -0,245 .
  • Koefisien korelasi antara assist dan poin adalah -0,330 .
  • Koefisien korelasi antara rebound dan poin adalah -0,522 .

Langkah 4: Visualisasikan matriks korelasi (opsional).

Anda dapat memvisualisasikan matriks korelasi menggunakan opsi gaya yang tersedia di pandas:

 corr = df. corr ()
corr. style . background_gradient (cmap='coolwarm')

Matriks Korelasi dengan Python

Anda juga dapat memodifikasi argumen cmap untuk menghasilkan matriks korelasi dengan warna berbeda.

 corr = df. corr ()
corr. style . background_gradient (cmap=' RdYlGn ') 

Matriks korelasi dengan matplotlib dengan Python

 corr = df. corr ()
corr. style . background_gradient (cmap=' bwr ') 

Matriks korelasi menggunakan Pandas

 corr = df. corr ()
corr. style . background_gradient (cmap=' PuOr ') 

Contoh Matriks Korelasi dengan Python

Catatan : Untuk daftar lengkap argumen cmap , lihat dokumentasi matplotlib .

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *