Como criar uma matriz de correlação em python
Uma forma de quantificar a relação entre duas variáveis é utilizar o coeficiente de correlação de Pearson , que é uma medida da associação linear entre duas variáveis .
Assume um valor entre -1 e 1 onde:
- -1 indica uma correlação linear perfeitamente negativa.
- 0 indica nenhuma correlação linear.
- 1 indica uma correlação linear perfeitamente positiva.
Quanto mais longe o coeficiente de correlação estiver de zero, mais forte será a relação entre as duas variáveis.
Mas, em alguns casos, queremos compreender a correlação entre múltiplos pares de variáveis. Nestes casos, podemos criar uma matriz de correlação , que é uma tabela quadrada que mostra os coeficientes de correlação entre várias combinações de variáveis aos pares.
Este tutorial explica como criar e interpretar uma matriz de correlação em Python.
Como criar uma matriz de correlação em Python
Use as etapas a seguir para criar uma matriz de correlação em Python.
Etapa 1: crie o conjunto de dados.
import pandas as pd data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10], 'rebounds': [12, 14, 13, 7, 8, 8, 9, 13], 'points': [22, 24, 26, 26, 29, 32, 20, 14] } df = pd. DataFrame (data, columns=['assists','rebounds','points']) df assist rebound points 0 4 12 22 1 5 14 24 2 5 13 26 3 6 7 26 4 7 8 29 5 8 8 32 6 8 9 20 7 10 13 14
Etapa 2: Crie a matriz de correlação.
#create correlation matrix df. corr () assists rebound points assists 1.000000 -0.244861 -0.329573 rebounds -0.244861 1.000000 -0.522092 points -0.329573 -0.522092 1.000000 #create same correlation matrix with coefficients rounded to 3 decimals df. corr (). round (3) assists rebound points assists 1.000 -0.245 -0.330 rebounds -0.245 1.000 -0.522 points -0.330 -0.522 1.000
Etapa 3: Interprete a matriz de correlação.
Os coeficientes de correlação ao longo da diagonal da tabela são todos iguais a 1 porque cada variável está perfeitamente correlacionada consigo mesma.
Todos os outros coeficientes de correlação indicam a correlação entre diferentes combinações de variáveis aos pares. Por exemplo:
- O coeficiente de correlação entre assistências e rebotes é de -0,245 .
- O coeficiente de correlação entre assistências e pontos é -0,330 .
- O coeficiente de correlação entre rebotes e pontos é -0,522 .
Passo 4: Visualize a matriz de correlação (opcional).
Você pode visualizar a matriz de correlação usando as opções de estilo disponíveis no pandas:
corr = df. corr () corr. style . background_gradient (cmap='coolwarm')
Você também pode modificar o argumento cmap para produzir uma matriz de correlação com cores diferentes.
corr = df. corr () corr. style . background_gradient (cmap=' RdYlGn ')
corr = df. corr () corr. style . background_gradient (cmap=' bwr ')
corr = df. corr () corr. style . background_gradient (cmap=' PuOr ')
Nota : Para obter uma lista completa dos argumentos do cmap , consulte a documentação do matplotlib .