Як обчислити кореляцію між двома стовпцями в pandas


Ви можете використовувати наступний синтаксис, щоб обчислити кореляцію між двома стовпцями в pandas DataFrame:

 df[' column1 ']. corr (df[' column2 '])

Наступні приклади показують, як використовувати цей синтаксис на практиці.

Приклад 1: обчисліть кореляцію між двома стовпцями

Наступний код показує, як обчислити кореляцію між стовпцями у pandas DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view first five rows of DataFrame
df. head ()

        points assists rebounds
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calculate correlation between points and assists
df[' points ']. corr (df[' assists '])

-0.359384

Коефіцієнт кореляції -0,359 . Оскільки ця кореляція негативна, це означає, що очки та передачі негативно корелюють.

Іншими словами, у міру того, як значення в колонці очок зростають, значення в колонці передач мають тенденцію до зменшення.

Приклад 2: Обчислення значущості кореляції

Щоб визначити, чи є коефіцієнт кореляції статистично значущим, можна скористатися функцією pearsonr(x, y) із бібліотеки SciPy .

Наступний код показує, як використовувати цю функцію на практиці:

 import pandas as pd
from scipy. stats import pearsonr

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calculate p-value of correlation coefficient between points and assists
pearsonr(df[' points '], df[' assists '])

(-0.359384, 0.38192)

Перше значення вихідних даних відображає коефіцієнт кореляції (-0,359384), а друге значення відображає значення p (0,38192), пов’язане з цим коефіцієнтом кореляції.

Оскільки p-значення не менше α = 0,05, можна зробити висновок, що кореляція між очками та передачами не є статистично значущою.

Додаткові ресурси

Як обчислити кореляцію рангів Спірмена в Python
Як розрахувати часткову кореляцію в Python
Як обчислити перехресну кореляцію в Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *