如何计算 pandas 中的滚动相关性:举例
滚动相关性是滑动窗口上两个时间序列之间的相关性。这种类型的相关性的好处之一是您可以可视化两个时间序列之间随时间的相关性。
本教程介绍如何在 Python 中计算和可视化 pandas DataFrame 的滚动相关性。
如何计算 pandas 中的滚动相关性
假设我们有以下数据框,显示 15 个月内两种不同产品( x和y )销售的产品总数:
import pandas as pd import numpy as np #createDataFrame df = pd.DataFrame({'month': np. arange (1, 16), 'x': [13, 15, 16, 15, 17, 20, 22, 24, 25, 26, 23, 24, 23, 22, 20], 'y': [22, 24, 23, 27, 26, 26, 27, 30, 33, 32, 27, 25, 28, 26, 28]}) #view first six rows df. head () month xy 1 1 13 22 2 2 15 24 3 3 16 23 4 4 15 27 5 5 17 26 6 6 20 26
要计算 pandas 中的滚动相关性,我们可以使用Rolling.corr() 函数。
该函数使用以下语法:
df[‘x’].rolling(width).corr(df[‘y’])
金子:
- df:数据框名称
- width:指定滑动相关窗口宽度的整数
- x, y:计算滑动相关性的两个列名
以下是如何使用此函数计算产品x和产品y之间销售额的 3 个月滚动相关性:
#calculate 3-month rolling correlation between sales for x and y df[' x ']. rolling (3). corr (df[' y ']) 0 NaN 1 NaN 2 0.654654 3 -0.693375 4 -0.240192 5 -0.802955 6 0.802955 7 0.960769 8 0.981981 9 0.654654 10 0.882498 11 0.817057 12 -0.944911 13 -0.327327 14 -0.188982 dtype:float64
此函数返回过去 3 个月两种产品销售额之间的相关性。例如:
- 第 1-3 个月销售额的相关性为0.654654 。
- 第 2-4 个月的销售相关性为-0.693375。
- 第 3-5 个月的销售相关性为-0.240192。
等等。
我们可以轻松调整这个公式来计算不同时间段的滚动相关性。例如,以下代码显示了如何计算两个产品之间的 6 个月销售额滚动相关性:
#calculate 6-month rolling correlation between sales for x and y df[' x ']. rolling (6). corr (df[' y ']) 0 NaN 1 NaN 2 NaN 3 NaN 4 NaN 5 0.558742 6 0.485855 7 0.693103 8 0.756476 9 0.895929 10 0.906772 11 0.715542 12 0.717374 13 0.768447 14 0.454148 dtype:float64
此函数返回过去 6 个月内两种产品销售额之间的相关性。例如:
- 1-6 月份销售额的相关性为0.558742 。
- 第 2-7 个月的销售相关性为0.485855。
- 第 3-8 个月的销售相关性为0.693103。
等等。
评论
以下是有关这些示例中使用的函数的一些注释:
- 宽度(即下拉窗口)必须等于或大于 3 才能计算相关性。
- 您可以在此处找到 Rolling.corr() 函数的完整文档。