Как создать матрицу корреляции в python


Один из способов количественной оценки связи между двумя переменными – использовать коэффициент корреляции Пирсона , который является мерой линейной связи между двумя переменными .

Он принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию.
  • 0 указывает на отсутствие линейной корреляции.
  • 1 указывает на совершенно положительную линейную корреляцию.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

Но в некоторых случаях мы хотим понять корреляцию между несколькими парами переменных. В этих случаях мы можем создать матрицу корреляции , которая представляет собой квадратную таблицу, показывающую коэффициенты корреляции между несколькими парными комбинациями переменных.

В этом руководстве объясняется, как создать и интерпретировать корреляционную матрицу в Python.

Как создать матрицу корреляции в Python

Используйте следующие шаги, чтобы создать корреляционную матрицу в Python.

Шаг 1: Создайте набор данных.

 import pandas as pd

data = {'assists': [4, 5, 5, 6, 7, 8, 8, 10],
        'rebounds': [12, 14, 13, 7, 8, 8, 9, 13],
        'points': [22, 24, 26, 26, 29, 32, 20, 14]
        }

df = pd. DataFrame (data, columns=['assists','rebounds','points'])
df

   assist rebound points
0 4 12 22
1 5 14 24
2 5 13 26
3 6 7 26
4 7 8 29
5 8 8 32
6 8 9 20
7 10 13 14

Шаг 2: Создайте корреляционную матрицу.

 #create correlation matrix
df. corr ()

                assists rebound points
assists 1.000000 -0.244861 -0.329573
rebounds -0.244861 1.000000 -0.522092
points -0.329573 -0.522092 1.000000

#create same correlation matrix with coefficients rounded to 3 decimals 
df. corr (). round (3)
	       assists rebound points
assists 1.000 -0.245 -0.330
rebounds -0.245 1.000 -0.522
points -0.330 -0.522 1.000

Шаг 3: Интерпретируйте корреляционную матрицу.

Все коэффициенты корреляции по диагонали таблицы равны 1, поскольку каждая переменная идеально коррелирует сама с собой.

Все остальные коэффициенты корреляции указывают на корреляцию между различными попарными комбинациями переменных. Например:

  • Коэффициент корреляции между передачами и подборами составляет -0,245 .
  • Коэффициент корреляции между результативными передачами и очками составляет -0,330 .
  • Коэффициент корреляции между подборами и очками составляет -0,522 .

Шаг 4. Визуализируйте корреляционную матрицу (необязательно).

Вы можете визуализировать матрицу корреляции, используя параметры стиля, доступные в pandas:

 corr = df. corr ()
corr. style . background_gradient (cmap='coolwarm')

Матрица корреляции в Python

Вы также можете изменить аргумент cmap , чтобы создать матрицу корреляции разных цветов.

 corr = df. corr ()
corr. style . background_gradient (cmap=' RdYlGn ') 

Матрица корреляции с matplotlib в Python

 corr = df. corr ()
corr. style . background_gradient (cmap=' bwr ') 

Матрица корреляции с использованием Pandas

 corr = df. corr ()
corr. style . background_gradient (cmap=' PuOr ') 

Пример корреляционной матрицы в Python

Примечание . Полный список аргументов cmap см. в документации matplotlib .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *