Como criar uma matriz de correlação em python


Uma forma de quantificar a relação entre duas variáveis é utilizar o coeficiente de correlação de Pearson , que é uma medida da associação linear entre duas variáveis .

Assume um valor entre -1 e 1 onde:

  • -1 indica uma correlação linear perfeitamente negativa.
  • 0 indica nenhuma correlação linear.
  • 1 indica uma correlação linear perfeitamente positiva.

Quanto mais longe o coeficiente de correlação estiver de zero, mais forte será a relação entre as duas variáveis.

Mas, em alguns casos, queremos compreender a correlação entre múltiplos pares de variáveis. Nestes casos, podemos criar uma matriz de correlação , que é uma tabela quadrada que mostra os coeficientes de correlação entre várias combinações de variáveis aos pares.

Este tutorial explica como criar e interpretar uma matriz de correlação em Python.

Como criar uma matriz de correlação em Python

Use as etapas a seguir para criar uma matriz de correlação em Python.

Etapa 1: crie o conjunto de dados.

 import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd. DataFrame (data, columns=['assists','rebounds','points'])
df

   assist rebound points
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Etapa 2: Crie a matriz de correlação.

 #create correlation matrix
df. corr ()

                assists rebound points
assists 1.000000 -0.244861 -0.329573
rebounds -0.244861 1.000000 -0.522092
points -0.329573 -0.522092 1.000000

#create same correlation matrix with coefficients rounded to 3 decimals 
df. corr (). round (3)
	       assists rebound points
assists 1.000 -0.245 -0.330
rebounds -0.245 1.000 -0.522
points -0.330 -0.522 1.000

Etapa 3: Interprete a matriz de correlação.

Os coeficientes de correlação ao longo da diagonal da tabela são todos iguais a 1 porque cada variável está perfeitamente correlacionada consigo mesma.

Todos os outros coeficientes de correlação indicam a correlação entre diferentes combinações de variáveis aos pares. Por exemplo:

  • O coeficiente de correlação entre assistências e rebotes é de -0,245 .
  • O coeficiente de correlação entre assistências e pontos é -0,330 .
  • O coeficiente de correlação entre rebotes e pontos é -0,522 .

Passo 4: Visualize a matriz de correlação (opcional).

Você pode visualizar a matriz de correlação usando as opções de estilo disponíveis no pandas:

 corr = df. corr ()
corr. style . background_gradient (cmap='coolwarm')

Matriz de Correlação em Python

Você também pode modificar o argumento cmap para produzir uma matriz de correlação com cores diferentes.

 corr = df. corr ()
corr. style . background_gradient (cmap=' RdYlGn ') 

Matriz de correlação com matplotlib em Python

 corr = df. corr ()
corr. style . background_gradient (cmap=' bwr ') 

Matriz de correlação usando Pandas

 corr = df. corr ()
corr. style . background_gradient (cmap=' PuOr ') 

Exemplo de matriz de correlação em Python

Nota : Para obter uma lista completa dos argumentos do cmap , consulte a documentação do matplotlib .

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *